因为他们的任务是要找到那张人脸文字转WAV音频