只是根据之前第五层的表现文字转WAV音频