实际上他一直在跟读文字转WAV音频