后者不得不主动认输文字转WAV音频