所以是由事后的现场倒推而来的画面文字转WAV音频