所接受的知识就是定型的文字转WAV音频