2013年09月25日 星期三
数据集成将成大数据新浪潮
□ 谢润超

    大数据是一个热门话题,然而当下关注的焦点正在发生转变,从数据分析迈向数据集成。

    到底要用多少个“V”来描述大数据呢?2001年的一份研究报告显示,大数据有三维属性:容量(volume)、速度(volocity)以及类型(variety)。在此之后,人们又添加了新的属性,即精确性(veracity),缺乏精确性的数据毫无意义与价值性(例如数据的价值随时间推移呈下行趋势)。然而,尽管供应商们尝试各种手段在这热门潮流中捞金,关于大数据的定义却仍然模糊。所以,我们不妨再给它一条“V”描述,也就是“Vague”。

    尽管有关大数据的炒作不断,其真实性却是不可置疑的。像开源软件Apache Hadoop分布式文件系统越来越为人们接受。据Hadoop数据分析公司Karmasphere的调查,26%机构已经开始使用它,还有45%的机构正在认真考虑。另一项由Tachaisle在市场中端企业间进行的调查发现,18%的机构正投资大数据,还有25%的机构正计划投资。预计对于大数据的年投入将于2016年超过36亿美元,这仅仅是来自中端企业的数据。

    不管真实与否,不可否认的是已经有部分公司认为大数据能成为数据分析有效的、低成本的解决方案。正如数据整合公司Informatica的首席执行官Sohaib Abbasi所言,许多大数据公司“正在大力宣传他们自己的技术”。

    业内人士指出,从分析师的角度看世界,你发现世界很复杂。现在我们有6种分析方法从传统的数据仓库中获取数据;或从专用分析数据库获取数据,如MC Pivotal,Greenplum;或从内存数据库,如SAP HANA获取数据;或从Hadoop获取数据,这是目前最热门的数据技术。此外,还可以从云网得到服务。每一个供应商都在竭力宣传自己的优势,让人们相信他们能够胜任所有任务。

    需要明确的是数据分析仅仅是大数据项目中的一部分。若要在Hadoop中分析数据,必须将数据载入Hadoop中。若要让那些数据与生产数据同步,又必须将数据从Hadoop中转移到另一个系统。忽视了这一关键点,对于任何企业而言都是极不明智的。

    未来,人们希望集成来自多渠道的数据,并希望在不同的系统中对这些数据进行分析。过去,我们称这种做法为ETL——即抽取、转换与加载。预计在不久的将来,BDI(大数据集成)将成为大数据领域中的新兴热点。 

京ICP备06005116