他们的目的是摸索第一大厅之前的区域文字转WAV音频