2013年11月14日 星期四
大数据研究,不能“忽悠”

  一年来,“大数据”3个字持续升温。大数据、云计算、移动互联网本质上都是互联网计算及其延伸产生的效果,包括更快的网络带宽,更广大的网络接入,更强的计算能力,更小的计算设备和更低的存储成本。

  “大数据”面临大挑战

  中国科学院院士、上海交通大学副校长梅宏指出,大数据不仅带来对软件技术、编程语言的挑战,同时也让人类社会面临着能耗挑战,因为目前全球范围内的数据中心服务器和散热系统每年大概需要消耗30亿瓦的电能,而这相当于20座核电站的发电量。一个大型数据中心的能耗非常巨大,甚至比一座中型美国城市的耗电量还要高。

  “历史上设计计算机系统的主要目标是充分发挥CPU的计算性能,较少关心如何满足持续的数据存取要求。现在存储问题尚未解决,又遇上大数据应用,计算机系统的负载发生了本质性变化,虽然CPU进展很快,每年50%~60%的增长,但负载增加更大;以前数据是围着CPU转的,现在变过来了,是围绕数据转。”李国杰院士认为,计算机系统结构需要革命性的重构,重点是数据如何“搬运”,要由过去的“大象搬木头”转变为“蚂蚁搬大米”。

  大数据研究和应用不能“忽悠”

  “大数据是什么呢?每个人都有每个人的理解,我自己也是带着问题来的。”2013年中国计算机学会海外杰出贡献奖获得者、美国特拉华大学电子与计算机工程终身教授高光荣在做大会报告时,展示了“瞎子摸象”的照片。这位从事计算机系统结构研究的国际知名学者介绍了自己近些年从事数据研究的成果。不过,他认为“大数据”的提法过热,明显有炒作的味道,急于求成,“做研究不要贪快,有些研究不会立竿见影,一项研究工作需要很多年。无论是美国还是中国,我们在大数据研究上,都才刚刚开始。”他用了一个新学会的词:不能“忽悠”。

  大数据研究人员短缺

  来自美国北卡来罗纳州立大学分校史德利·阿霍尔特教授是创新计算研究所的负责人,他认为,大数据已经存在,需要新的工具来使数据消费者进行大规模应用。

  在他看来,数据的产生者包括大学、政府、医疗保健机构、工业界等,而数据使用者是科学家、公民、政府、医务人员、商业界。“从2010年开始,每两天产生的数据就相当于历史上到2003年产生的数据总和。所以需要数据科学,对这些数据进行分析、挖掘,利用。互联网使得数据的移动、共享和发现更容易;更快的处理器,更多和更廉价的存储容量。”

  阿霍尔特教授提供了一系列数字,大数据的应用可以使美国每年节省医疗节省费用达到3000亿美元,这相当于西班牙全年的医疗保健花费;欧洲公共管理部门每年可节省2500亿欧元;节省1%的汽油油耗,15年可以节省680亿美元;采用数据信息决策的公司,可使生产率提升5%~6%。

  而因为大数据开发及使用,也可以创造无数新的工作机会。全球范围内,到2015年,大数据和分析工作机会有望超过400万个。

  每个大数据的工作能够产生3个相关的工作。对于美国而言,到2015年,将有190万新的大数据工作机会,但将由于人才短缺,仅有1/3的岗位能招到人。2020年,美国针对数据相关的管理员和软件开发者的需求预计增长约32%。

  《中国青年报》 2013.11.7文/李新玲

京ICP备06005116