第二个阶段便是现在的状态文字转WAV音频