这样的理论倒还是第一次听到文字转WAV音频