两人其实至少做了三次的预判和至少三次的微操文字转WAV音频