后者在衡量得失文字转WAV音频