所以他们说出的话就会变成答案文字转WAV音频