不过他们毕竟还是经过严格训练的文字转WAV音频