以前是分开安排文字转WAV音频