最终还是选择了拒绝文字转WAV音频