而不是完全的依赖主观文字转WAV音频