他们应该和记录的影像一样文字转WAV音频