他们最终只得到了6个人文字转WAV音频