比他们预期的多出了两个文字转WAV音频