即便是在ct这种难度较低的模拟场中文字转WAV音频