从他们的说话当中文字转WAV音频