这类理论的核心就是文字转WAV音频