根据属下的观察文字转WAV音频