那他们为什么不直接量产文字转WAV音频