大数据的核心就是数据的文化、思维和方法。大数据的应用只是未来信息技术的一种应用,不应该过于神化大数据,也不应该过于矮化大数据。大数据目前炒得太热了,实际上,这个东西很早就存在。孙膑和庞涓打仗就是用数据来驱动。美国研究机构Gartner也认为大数据现在已经到了幻灭期,要把大数据赶下神坛。
此前的云计算被炒了好几年,到如今也没有多少人能感受到有哪些太大的改变?跨过公司搞推销是要给你先洗脑,愿景描绘的好上加好,到头来建一堆“废铜烂铁”还让你自愿来埋单,掏空你的钱包。前几年几家大公司合着伙把云计算炒上了天,其结果是各地政府耗资几千亿纷纷建立起大片大片的数据中心。真的能用这么多大型数据中心吗?有些人心里很清楚。
诚然,从理论上看,云计算是变革IT的,它把IT变成一种基础设施,变成一种弹性,按需可获得、可测量的基础设施,它改变的只是每个公司的IT部门。而大数据则是深刻的改变我们的业务、我们的工作、学习和生活方式。毫无疑问,尽管中国成了云计算“试验田”,但是大数据还是未来的技术应用趋势。只是不要再盲目投巨资,应用需要一步一步来。
如果说云计算还是IT,是用“新瓶”装了“旧酒”,那么大数据至少它的酒变成新的了。大数据的特性是大、杂、快。说它大,用一个印象最深刻的比喻就是,从人类文明开始到2003年,人类总共创造了多少数据,在今天,我们每半天就能创造那么多数据。说它杂是指有非结构化数据,结构化数据,有正在动的数据,也有静止的数据。有科研的数据,也有企业的业务数据,有互联网的交互数据,也有物联网的传感数据。
说它快是指大数据在少数几大行业已经铺开了。华尔街的高频交易是典型的快鱼吃慢鱼。高频交易发现机会的频率在微秒级,微秒级的吃毫秒级的。这就是为什么它们每个数据到每一个终端要求网线是一百英尺,是怕有人在网线长短上面偷这一点点时间。
那么,这些大、杂、快的大数据到底能做些什么?它对技术有什么挑战?这才是我们应该更关心的问题。以往,最早使用大数据的沃尔玛,这个礼拜的数据下个礼拜出来,它可以接受。但是现在,我们要去了解一个顾客真正关心的是什么,他想买什么,等到他结账以后再去知道是不是有点儿太晚了?应该是他还在超市里面走的时候,他在一边看的时候,我们就应该实时的知道他的欲望是什么,兴趣是什么,我们可以大数据技术去怎么样地开发他。
毋庸置疑,大数据的应用技术大多都在开发研究中,目前还没有什么真正成熟的技术可言。去年追捕案犯周克华的时候,南京市场上硬盘都买不到了。据透露在南京请了两千多名警校的学生,用人海战术看了三个月的数据。他们用硬盘从数据中心拷出来,到底在哪儿露过面,能抓到哪些蛛丝马迹,都是用人眼去找周克华。这从另一个方面印证了,假如果真有成熟的大数据应用技术,还用这么个人海战吗,可能两分钟就找到线索了。如果看的再远些,在未来很有可能通过大数据实现。在7月31日英特尔中国研究院举办的“创新七巧板”活动上,首席工程师吴甘沙透露说,英特尔的物联技术研究院在做这个平台。
事实上,目前许多大公司都在研究开发大数据应用技术。在业界看来,Hadoop现在几乎成为了大数据处理的标准平台。Hadoop能够处理大和杂,能够处理各种结构化、非结构化的数据,但是不能快。它每次去处理的时候,都要把整个“数据海洋”重新煮沸一次。这叫做批量处理。我下次又有一些数据来了,他又要重新把这个“数据海洋”煮沸。现在的Hadoop可能能够做到十分钟级别。吴甘沙说“我们研究院现在第一步就开始想,我们怎么能够加速它,把十分钟级别做到分钟级别。而真正的大数据要快到秒级。”
对于大数据技术研究,英特尔中国研究院还在进行联合研究图计算。吴甘沙表示,图或者是复杂网络现在是非常普遍的。路网是图,社交网络也是一个图,一个疾病爆发的模式也是一个图。甚至是现在的“棱镜”,他要去找到恐怖分子策划恐怖事件的轨迹,通过很多电话的网络、社交网络等结构化数据、非结构化数据、视频数据来进行图计算的。
信息技术的角色已从一种降低成本与提高企业效率的方式,演变为向企业和消费者提供新服务的途径。展望未来,随着更多移动设备连接至互联网,通过从数以亿计的使用者及设备上获取的经验,基于云的软件与应用正变得更加智能,从而可为用户带来更加精彩的环境感知型体验与服务。迪斯尼最近开始为游客提供能实现无线连接的腕带,其能通过实时数据分析来改善游客的园内体验。我国的博康智能开展了一项智能交通安全计划,以寻求在一个拥有千万人口的城市中确定合适的交通模式,并智能地为行驶在道路上的车辆提供更好的路线选择。这些应用正在一步步地展示未来大数据的魅力,逐渐成为我们伸手可及的应用感受。