但实际上除了刚开始的询问文字转WAV音频