再加上后者言语上的刺激文字转WAV音频