他们收集到的信息是文字转WAV音频