显然他是在衡量文字转WAV音频