所以他选择了一个被动的技能――文字转WAV音频