有一部分是被从现实世界中抓回来的文字转WAV音频