区别主要在于地段文字转WAV音频