首先他们想到的是强硬压制文字转WAV音频