一定是出在他假设出来的众选文字转WAV音频