所以他在感知位面的时候文字转WAV音频