显然是常年受训的结果文字转WAV音频