这是相对合理的估计文字转WAV音频