几乎每个人都由一个单独的摄像头监视着文字转WAV音频