【PConline 杂谈】现在,随着大数据的不断升温,IT业内有很多人都围绕着“数据湖”这样一个概念开始不断的讨论和炒作,也开始有很多业内厂商开始抓住数据湖的概念针对大数据业务展开新一轮的攻势。 Gartner研究总监Nick Heudecker表示:“从广义上讲,数据湖被市场营销为一个用于分析各种来源、原始格式的数据的企业数据管理平台。其想法很简单:你将数据以原始格式迁移到数据湖中,而不是放置在专用的数据存储中。这就避免了接收数据的前端成本。一旦数据被放进数据湖中,企业中的所有人都可以使用这些数据进行分析。” 灵活性是数据湖的推动力 Gartner副总裁及著名分析师Andrew White表示:“对于提高数据分析灵活性和可访问性的需求,是数据湖的主要推动力。数据湖可以为企业机构的不同组织提供价值,这一点是千真万确的,但是企业数据管理的定位还没有最终实现。” 对于数据而言,如何安全的保存和灵活的存取使用是厂商和用户都非常关注的一方面,对于数据的定义和监管等方面一直以来也成为困扰许多厂商技术人员的一大难题,大数据项目要求大量各种信息。这些信息如此不同,以至于我们不知道这些信息究竟是什么,以及什么时候收到的,就把它归类到某种类似数据仓库的结构化数据,或者关系型数据库管理系统以便未来使用,还有待我们去解决。 数据湖的诞生对于上述问题是有一定的参考价值的,有了这种技术,企业的IT部门不再需要花费大量的时间去了解很多繁琐的实用信息,这些数据直接被倾倒在数据湖当中即可,个数据湖最终将成为多个缺乏相互连接的数据池或者集中在一个地方的多个信息孤岛的集合体。 数据湖风险依然存在 下面我们就来说说利用数据湖技术之后,我们会面临哪些危险,首先,我们无法决定数据质量或者利用其他已经发现价值的分析师或者用户在使用湖中相同数据中的经验发现,数据湖可以收集任何方面的数据,而且不受任何的监管和制约。 另外一个风险是安全性和访问控制。数据可以在不受内容监管的情况下被放到数据湖中。很多数据湖中数据的使用意味着其隐私和法规要求很可能使其暴露于风险之下。 数据湖相关的工具和数据接口的性能无法与专用存储系统相匹敌,可以针对优化的专用的基础设施。因此,Gartner建议企业机构专注于上游应用和数据存储库的语义一致性和性能,而不是数据湖中的信息整合。 企业的运营水平需要提高 数据湖的根本问题是,它对信息的用户做了特定的假设。它假设用户了解数据获取的背景,知道如何合并数据和如何协调不同数据来源,虽然这些假设对于数据科学家这样使用数据的用户来说的确是真实的,但是大多数企业用户缺乏这么高的水准或者缺乏来自运营信息监管方面的支持。 对于企业而言,我们从大数据当中寻求企业的自身价值,同时对于数据安全等方面也有很多问题是我们不得不解决的,如果我们允许各种数据孤岛的独立数据分析,那么也许有可能我们变得更有吸引力,也许我们的信息就不再安全,所以,数据湖的这个概念对于企业来说还是需要进一步探讨和研究的。[返回频道首页] 更多云计算、虚拟化、大数据行业资讯和最新技术,关注PConline企业频道云计算专区: >> 办公论坛 - 业界动态 - 行业方案 - 3D打印 - 虚拟化 - 深度报道 - 案例分析 - 产业观察 - 云计算 << |
正在阅读:此湖非彼湖 “数据湖”是炒作还是真有用此湖非彼湖 “数据湖”是炒作还是真有用
2014-08-12 09:25
出处:其他
责任编辑:zhangxiaomeng