他们也只是靠猜文字转WAV音频