真实视野和感知交替使用文字转WAV音频