用感知锁定了两个人文字转WAV音频