只不过他们最大化的是将人分开文字转WAV音频