弊端就是必须听从他的话文字转WAV音频