它们首先应当是外形类似于人类的生物文字转WAV音频