为什么我对大数据(Big Data)持怀疑态度

收集、处理和分析数据是一件有意义的事,并必将产生价值。问题在于:我们能从大数据里挖掘出多少价值?是否真的如人们想象得那样多?      据统计,2012年大数据直接相关业务的产值达到100亿美元。而预测称5年以后这个数字将达到500亿美元。如果考虑 Google,Fa...显示全部

14121010436434.jpg



收集、处理和分析数据是一件有意义的事,并必将产生价值。问题在于:我们能从大数据里挖掘出多少价值?是否真的如人们想象得那样多?

      据统计,2012年大数据直接相关业务的产值达到100亿美元。而预测称5年以后这个数字将达到500亿美元。如果考虑 Google,Facebook,Twitter,Amazon这几家收集和处理大数据能力最强的公司,目前似乎是合适的投资时机,而由此带动的新市场将 使硅谷迎来下一轮欣欣向荣。在硅谷以外,金融、保险、零售、医疗行业都在谈论大数据。在学术界,受益于奥巴马政府最近的2亿美元研究拨款以及各州的大量拨款,今年北美超过50%的计算机科学教授职位面向大数据研究。甚至我的研究物理学和运筹学的朋友们也在谈论大数据。

      抛开这些令人鼓舞的数字和预测,回到本质问题,大数据真的能改变人们的生活吗?两年前我对此比较乐观。原因在于,计算机技术的发展正在进入一个摩尔定律失 效的时代。CPU的处理速度到达瓶颈,不再能18个月翻一倍。而另一方面,人类获得的数据规模正在以指数速度增长。这预示着,大数据处理需要超越传统的新 技术。而这很可能带来全新的发现。两年后,对大数据的炒作已经演变成了某些人为扩大自己的圈子而进行的商业宣传。但是,大数据真的帮我们做到了以前不能做 的事吗?

更多的数据并不意味着更多的信息

      小明同学想要精确地测出自己的身高。由于测量存在误差,他连续量了5次,然后计算5次的平均值。有理由相信,这种方法比单纯量一次身高更准确些。但如果小 明有足够的时间和耐心,他可以量1000000次,然后从1000000个结果里计算自己的身高。在这个例子里,虽然我们拥有了一百万条记录,其中包含的 信息并不比5条记录多出多少——它们唯一的用处仍然只是计算小明同学的身高。很不幸,这就是大数据分析面对的现实。

      现实中的大数据之所以“大”,是因为互联网把上亿用户的信息汇集在了一起。但我们往往高估了人的差异性。看看四周,人们每天做着相同的交通工具去做差不多 的工作。下班以后吃差不多的食物,看一样的电影,上网关注相同的名人。假期到了,则去几个数得着的地方旅游。如果大家都把自己的生活细节一丝不苟地记录下 来,我想任何人在看了1000个人的日记以后就不会产生新鲜感了,更遑论10亿人的?既然如此,为什么需要10亿人的数据?

      反驳者认为,大数据能帮助更好地把握每个人类个体的情况。但即便在如此目的之下,收集大数据也不是必须的。以Amazon的在线推荐系统为例。对一个女性 客户Alice,网站试图推荐Alice感兴趣的商品给她。如果Amazon的设计师热衷于设计复杂的系统,他大可以搜索Amazon的全部10亿个用户 资料,找出那些购买偏好和Alice相似的客户,然后推荐她们以前买过的东西给Alice。直觉上说,只有当用户资料库足够大,才能找出和Alice足够 相似的人,从而做出靠谱的推荐。但事实是:一个如此复杂的,基于10亿人的系统做出的推荐,其准确率甚至不到万分之一。相反,如果完全忽略Alice的个 人偏好,直接给她推荐20个女性购买最多的商品,Alice购买的可能性甚至高于个性化推荐的商品。由此我们可以做出两点判断:(1) 10亿人的数据充斥着不含任何信息的噪音 (2) 即使基于少量信息,也可以判断个体的行为,并且不比基于大数据的判断来得差。

大数据被用来验证知识而非发现知识

      在科学和社会学领域,人们寄希望于从大数据中发现新知识,但目前看来这只是个美好的愿望。人类在近300年中发现的知识远多于之前的10万年,但这并不是 因为人类的视力和听力进化了。事实上,如果不针对性地分析数据,就不可能从数据中提取出知识。而针对性地分析数据需要恰当的猜想和论证,它们已经是待探索 的知识的一部分。不依靠人为干预,仅靠计算机程序自动从大数据里发现知识,这还属于科幻小说的题材。

      就学术界的现状来说,大数据基本被用于检验常识,而非发现新知识。举一个我曾经和 @Amber 讨 论过的例子。康奈尔大学的Jon Kleinberg教授通过分析Facebook用户数据发现,如果一对情侣拥有过多的共同好友,他们分手的可能性比较高。因为这种情况下情侣会花大量时 间和朋友们在一起玩,而失去了独处培养感情的时间。这项发现被纽约时报、Fox新闻网等媒体争相报道,并作为大数据分析的优秀典型。但仔细考虑之下,这真 的是一个“发现”吗?我想,Kleinberg教授至少是首先假设了情侣的分手率和他们的共同好友数有关,这才去做数据统计的。而另一方面,公众之所以认 为这是个有趣的结果,也恰恰因为它从某种程度上符合了“不证自明”的常识。事实上,如果数据挖掘研究得到了反常识的结论,那么这项研究是难以发表的,至少会遭到苛刻的责难。因为研究者们心里也清楚,大数据充斥着难以分析的噪音,如果得出的结果违反常识,那么多半是噪音导致的错误,而并非少数人的真理。

处理大数据的技术和处理小数据的技术没有本质区别

      传统上用于处理和分析小数据的技术,基本都可以直接拿来处理大数据。如机器学习界10-20年前提出的神经网络、SVM、聚类算法,以及统计学界 30-40年前已经成熟的回归分析、PCA等等,现在依然是处理大数据的主流技术。当然,针对大数据处理人们研究了一些优化策略,如采用并行计算,用内存 维护数据库,采用消除大数据噪音的方法等等。这些优化技巧有效地提高了处理大数据的效率。但尚称不上本质的进步。

      算法层面上,现在最火的当属深度学习(Deep Learning)。公众所知的深度学习以Google Brain为代表,号称从上亿张图片里发现“猫”和“碎纸机”的概念(我相信Google Brain生成了成千上万个概念,其中绝大部分是无法理解的,只有符合常识的这几个被报道出来了,再次验证前一段的论点)。从技术上说,深度学习和 1986年提出的人工神经网络并没有本质区别。仅仅是使用了和传统神经网络略有差别的激励函数,以及针对大数据做了些克制噪音的优化。目前深度学习的大佬 Geoffrey Hinton,Yann LeCun都是八十年代搞神经网络起家的人,经历了近10年被SVM打压发不出论文的郁闷后,终于在近几年翻了身。Yann LeCun刚刚帮NYU拉到了1亿美元的大数据研究经费。还没来得及花,又被Facebook挖去主持Facebook AI Lab,确实炙手可热。虽然深度学习称得上近来的突破之一,但它实质上是把小数据算法应用于大数据的成功实例,并不能算大数据引发的原创技术贡献。

大数据还能火多久

      如标题所属,我对大数据的前景持怀疑态度,因此我不认为它会长久地火下去。这个判断基于我片面的认知,当然谈不上正确。个人预测,大数据的概念还有2-3年的炒作空间。所以有志于此的同学们该捞钱的抓紧捞钱,该找工作的抓紧找工作。过了这村可能就没这店了。

      最后上一张老图。这张图表明,任何概念都要经历一个:“炒作 -- 低谷 -- 重新上升 -- 创造实际价值”的过程,2012年的时候大数据还在爬升期,而现在大概到顶了。如果要预测未来走势,请参见图中最高点处的“3D打印”,现在还有人聊3D打印吗?呵呵。收起
参与2

返回ce97的回答

“答”则兼济天下,请您为题主分忧!
ce97ce97软件开发工程师某某某
为什么我对大数据持怀疑态度(续)

在撰写完“为什么我对大数据持怀疑态度”这篇日志两年后,我认为重新讨论当年的一些观点会很有趣。事实证明,不仅我的“怀疑”引起了争议,作为权威学者的Michael Jordan教授的“怀疑”同样引起了争议。这些争议是如此明显,以至于Jordan在他接受IEEE Spectrum的采访后,还专门在实验室主页上撰写了一篇博客澄清他的看法。Jordan声称,他没有任何反对大数据的意思,他唯一反对的是针对大数据进行炒作。看了这篇文章以后我想,拜托,您这不是反对大数据是什么?

  以我个人粗浅的理解,任何领域如果突然火爆起来,必然是因为有一群人因为它的火爆而获益。那么谁因为大数据概念的盛行获益呢?首先是学术界。大数据的概念帮学校争取了更多的经费,创造了更多的教职岗位,从而能招收更多的研究生。其次是工业界,大企业通过宣传“谷歌大脑”这类的概念性产品赚足公众眼球,股价节节上升。创业公司通过塑造自己的“大数据”背景拉到天使投资。最后是新闻媒体,他们找到了一个制造新话题的机会,满足读者们对未来世界的科幻梦想。这三类人构成了大数据潮流下的参与者主体。如果我们思考这个集团的原生冲动,那不就是炒作吗?他们因为炒作而生,在炒作中不断发展壮大。而Jordan说,你们最好都各回各家,把大数据研究交给严谨的学者和工程师让他们慢慢去做。道理上是没错。只是,如果您把绝大部分人都遣散了,大数据这个概念还存在吗?

  我阅读过原日志和Jordan采访下面的评论。一类主流反对声音是,大数据已经有了很多重要应用嘛。比如,它大幅提高了语音识别准确率,它让机器从图片中识别出上万种物体,这些都是真的。难道我们还要对大数据的意义有任何怀疑吗?我们当然还需要怀疑。在没有炒作的情况下,这些成果同样能被创造出来,并且创造他们并不需要太多成本。而当人们发现炒作有利可图的时候,成百倍的人拥向这个领域,抢夺原本有限的资源。资源消耗的速度增加了无数倍,但产出率却没有太大增加。这是因为,炒作的人拿钱是为了忽悠更多的钱,而踏踏实实做事的人还是只有那么少啊。当资源的消耗速度超过信心的增加速度时,轰!炒作的人和做事的人同归于尽,而这个领域陷于长期的停滞。为了避免悲剧发生,给大数据浇浇冷水也不错。

  最后我想问,为什么大数据这个概念能被炒作起来?不妨先看看深度学习。我在近年的深度学习文献中感觉到一种明显的倾向,就是人们不再重视对机器学习方法给出合乎理性的解释,而越来越诉诸于一个极其简单的理由:因为它深。算法结构越深越好,从一个实验结论变成了不证自明的公理,变成了论文的动机。而大数据为什么有前途,社会大众的解释就是因为它大。人们或许不知道大数据有什么用,但每个人都知道大比小好。如此简单朴素地观念形成了大数据浪潮的基础。普通人的不求甚解尚可原谅,科学界的不求甚解却让人担忧。当学者热衷于撰写看似有理却经不起推敲的论文,而舆论习惯于夸大一切,对这样的现实难道不该抱有一点怀疑吗?
系统集成 · 2014-12-11
浏览1330

回答者

ce97
ce974612
软件开发工程师某某某
擅长领域: 数据库大数据中间件

ce97 最近回答过的问题

回答状态

  • 发布时间:2014-12-11
  • 关注会员:0 人
  • 回答浏览:1330
  • X社区推广