实际上是两人主动分解文字转WAV音频