简单地说就是……当两人开始移动时文字转WAV音频