都是使用模型拍摄文字转WAV音频