他一直认为这会是个长期过程文字转WAV音频