第一个阶段是用脑子理解记忆文字转WAV音频