所以这一次他们尽可能多地捕捉一些文字转WAV音频