难道它无法观测到我们的一举一动文字转WAV音频