二十分钟后得到了恰当的比例文字转WAV音频