因为决定生产模式的是消费者文字转WAV音频