是根据自身的修为判断的文字转WAV音频