目的其实就是观察这件事情的动态文字转WAV音频