进而判断出他现在是处于什么状态文字转WAV音频