镜头尽量稳定地捕捉着他们文字转WAV音频