但是研究的方向却是正确的文字转WAV音频