似乎并不只是为了套出他们的话文字转WAV音频