即使这组数据从自己的嘴巴里说出来文字转WAV音频