但后半部分加上口述文字转WAV音频