他们需要接受彼此的差异文字转WAV音频