这才意识到需要分析文字转WAV音频