实则是将大家的表情看眼里文字转WAV音频