也完全可以拿到录音的时候再微调去了文字转WAV音频