更多的是源自他的基础文字转WAV音频