当然了他们两人的认识都是建立在文字转WAV音频