主要依赖于墨徒文字转WAV音频