两个人的身份已经从一开始就决定了文字转WAV音频