还要依靠一比一比例的模型拍摄文字转WAV音频