我觉得按照他的方案才是最可行的文字转WAV音频