观察着两位演员的每一个动作和表情文字转WAV音频