大多是两者皆占文字转WAV音频