他们就按照标准答案文字转WAV音频