而是在双方的质量上的文字转WAV音频