□ 戴未琰
视点
大数据获得动力,关键在于开放源代码,帮助分解和分析数据。Hadoop 和NoSQL 数据库便是其中的赢家,他们让其他技术商望而却步、处境很被动。毕竟,我们需要清楚怎样创建一个平台,既能解开所有的数据,克服数据相互独立的障碍,又能将数据重新上锁。
当今,许多通用的大数据分析平台已投入市场,人们同时期望更多平台的出现,可以运用在特殊领域,如药物创新、客户关系管理、应用性能的监控和使用。若市场逐步成熟,在通用分析平台之上,开发特定的垂直应用将会实现。但现在的技术有限,除非考虑利用潜在的数据库技术作为通用平台。
人们期望更多特定的垂直应用出现,把目标定为特定领域的数据分析,这些特定领域包括航运业、销售业、网上购物、社交媒体用户的情绪分析等等。同时,其他公司正在研发小规模分析引擎的软件套件。比如,社交媒体管理工具,这些工具以数据分析作为基础。
建模、机器学习、统计分析和大数据经常被联系起来,用以预测即将发生的事情和行为。有些事情是很容易被预测的,比如坏天气可以影响选民的投票率,但是有些却很难被准确预测。
但是,当数据累加,我们基本上有能力可以大规模尝试一个连续的基础。网上零售商重新设计购物车,来探索何种设计方式能使销售利润最大化。根据病人的饮食、家族史和每天的运动量,医生有能力预测未来疾病的风险。
当然,在人类历史的开端,我们就已经有各种预测。但是,在过去,许多预测都是基于直觉,没有依靠完整的数据集,或者单单靠的是常识。即便有大量数据支撑你的预测,也不表明那些预测都是准确的。2007年和2008年,许多对冲基金经理和华尔街买卖商分析市场数据,认为房地产泡沫将不会破灭。根据历史的数据,可以预测出房地产泡沫即将破裂,但是许多分析家坚持原有的观点。
另一方面,预测分析在许多领域流行起来,例如欺诈发现(比如在外出使用信用卡时会接到的诈骗电话),保险公司和顾客维系的风险管理。
机器学习能力不断提升,逐步成为分析套件里的必要工具。此时,不要惊讶,人类因素正渐渐淡化。企业主经常尝试限制人为误差。任何网络安全专家,通过详细讨论后指出,安全漏洞是由人为误差而引起的,比如过度依赖弱口令,不慎进入钓鱼网站或其他安全系数低的网站。
然而,即使机器学习能力不断提升,机器也只能提问我们事先设定的问题。这会给我们带来很大限制:若依赖于机器,我们究竟可以得到多少。人为因素对大数据的出现十分关键。大数据领域最有名的两位预言家和先驱者是 Billy Beane 和 Nate Silver。Beane 曾推广一个想法:将各种各样的数据联系起来,这些数据都是关于被低估的运动员的特质。接着把这些运动员召集起来,组成一支棒球队上场比赛。这支较为经济的团队竟能与实力雄厚的队伍(比如洋基队)进行抗衡。
有部分人不相信 Nate Silver 的预测,开发出不依赖于数据分析的软件,比如 Unskewed Polls(中文译为非倾斜民意调查,但其实不然)。因为许多人认为Silver 只是数据库轮询方面的专家,但实际上他在大数据分析领域也十分在行。
在不同情况下,最重要的不是机器搜集数据、得到初始数据,而是人为顶端分析,只有人为因素才使这些数据有意义。
当大数据分析逐渐成为主流,它将会变得和其它早期的技术一样普遍。大数据分析也会逐步成为一种日常工具,但关键还在于人为操作。