用的都是口头协议文字转WAV音频