中间部分的就是几百几千文字转WAV音频