那么我的推断很可能会是正确的文字转WAV音频