所以记者们并没有划分明确的区域文字转WAV音频