但他错误估计了两件事文字转WAV音频