根本无法捕捉到具体的存在文字转WAV音频