他们是依靠单纯的肢体动作文字转WAV音频