因为第一个阶段算是完成了文字转WAV音频