然后再计算一下中间点文字转WAV音频