只是从两个人的话中可以推断得出文字转WAV音频