它们近似人形文字转WAV音频