核心残图的确被分成了两份文字转WAV音频