估计会有所保留文字转WAV音频