因为那样会消耗用户对文字转WAV音频