他们自然而然就会推测文字转WAV音频