俩人的演绎方式在某种意义上很像文字转WAV音频