都是以绝对理性的方式计算和推导出来文字转WAV音频