这个概念一经提出就受到了各种质疑文字转WAV音频