第二层就是表面上的理解文字转WAV音频