认为这个技术理论上还是行得通的文字转WAV音频