关键的还是在于互相的理解文字转WAV音频