肯定是他们先说好的文字转WAV音频