双方的身份就确定了文字转WAV音频