在理论上反而是无法解释的文字转WAV音频