极少的一部分能够完全地懂人言文字转WAV音频