所以只能用点手段让它们先分开文字转WAV音频