然后注意自己的表情小细节之类的文字转WAV音频