并且用固定的三维视角没有办法去描述文字转WAV音频