在商业和科学上,大数据可能带来的革命性变化。
一、大数据商业革命
大数据是分层次的,包括大数据1.0、2.0和3.0,这里分别做一介绍。
大数据1.0
如果用一个关键词来讲大数据1.0,那就是分析,更深入、更好的分析技术。其实,刚才邬贺铨院士讲了非常多的例子,我这里再补充一些。比较有意思的是医疗方面的大数据,其中讲得比较多的是“量化自我”,它是通过一种非干预的手段,把一些所谓的医疗传感器放到我们的身边,比如我们戴一个腕表、一枚戒指、一个耳塞、一副眼镜等,通过这些设备我们可以了解自己的心跳、血压情况,甚至包括我们体表的健康状况,从而对一些大病(如癫痫等)进行早期预测。同样,如果我们给一个小孩子使用小儿床垫,通过这个床垫上的压力与湿度传感器分析,我们可以很早地判断这个小孩子有没有比较严重的打鼾或者睡姿不正确等问题。因为严重的打鼾容易造成小孩在三、四岁的时候智力发育低于同龄人,现在通过这个床垫的传感器分析就可以及早地发现并加以治疗。针对慢性病人、老年人同样也有一些类似的辅助工具。
关于大数据的深度分析,很重要内容就是个性化的信息推荐。个性化的信息推荐不仅仅是基于用户的相似性这么简单的东西,还有大量比较深入的复杂模型。比如说,就用户看资讯而言,我们怎么样去判断一个用户点开一条八卦资讯后,是继续深挖八卦到死,还是转而浏览另外一个新闻。同样,有的用户登陆淘宝只是逛逛而已,有些用户则是很明确地想要买一些东西,这就需要对用户的意图进行预测,这里面涉及到一些比较难的机器学习技术。
大数据的深入分析可以在很多领域发挥重要作用。比如,Netflix公司是一个线上VCD/DVD租赁公司,它通过分析大量电影电视剧的观看和评价数据,找到他认为最合适的导演、演员班子和内容,利用这些分析结果,它投资并拍摄了美国历史上最成功的电视剧“纸牌屋”,这实际上是Netflix公司推出的第一部影片。目前,我们可以利用机顶盒的数据对同一个电视台的不同节目进行智能排序,使得这些节目能够更好服务不同的观众。我们还可以分析电视节目之间的竞争网络,通过微调播出时间,提高收视率。以上这些都是建立在对大数据深入分析的基础上,所使用的方法比简单的支持向量机、回归分析、决策树等等困难许多,大部分情况下也没有办法把这些分析方法产品化。
大数据2.0
大数据1.0只是一个起步,它强调的仅仅是自身的业务产生的大量数据,并通过更多的深入分析优化自身的业务。实际上,大数据在商业上的精髓不仅仅是深入分析,还在于怎么把自己的数据创造性地用到其它业务上去,或者是把其它外部的数据用到自己的业务中来。这就带来了大数据2.0,它的关键词是“外部性”。刚才邬贺铨院士讲了很多很好的例子,比如,印第安纳大学怎么样预测道琼斯指数,怎么样通过微博、Google的信息来预测股市,淘宝的CPI指数怎么用于评估中国的非刚需消费等等。在这些例子中,微博和淘宝数据的产生最初并不是为了预测道琼斯指数,也不是为了计算中国消费者指数,它可能仅仅是用户在网络上发泄一下自己的情绪,或者是记录淘宝上的销售情况。但是这些数据可以发挥很多人想象不到的“外部”价值,这就是大数据2.0的一个典型特征。
这里我讲一下Zest Finance的例子。它提出的一个口号是“所有的数据都是信用数据”,它通过分析一个用户在互联网上的大量内容,包括删除网页的记录、购买东西的记录、社交关系记录等等,能够快速地做出给你提供多少贷款的决策。不仅决策周期短,成本低,而且放贷后用户拖延还贷的比例比银行业要低35%。
关于大数据的外部应用,很重要的一点就是占领终端。比如,每一台空调的外挂机上都可以放一些传感器,收集温度、湿度、空气中的颗粒物等,这样的空调基本上每几十米就可以设置一个,可以提供比当前我国空气质量监控站覆盖更广泛的信息,可以做全国范围的环保监测网——这样的网络反而是国家难以做到的。再举个例子,一个终端,比如一个智能彩电的终端能做什么?大家可以想到的,似乎可以做一些个性化的节目推荐,或者做一些个性化的广告推送,但事实上远不止于此。一个上千万的智能终端,第一可以做更好的收视率调查,第二它还可以影响广电、电视节目的收视率。比如,在节目推荐时,把浙江卫视放在湖南卫视之前推荐,这样就可以提高浙江卫视的收视率。未来它甚至还可以做终端广告、做内容等等。这些未来终端的拥有者,将会极大地改变人们的生活方式,冲击传统行业。
大数据3.0
大数据3.0是大数据时代到来的最后的一步,也是至关重要的一步。谈论大数据时代的到来,绝不说仅仅几个人或者几家公司能用大数据就标志着大数据时代的到来,应该是每一个科研团队,每一个创业企业都有能在大数据应用中获益。对他们来说,尽管数据量如此庞大,但他们使用起来就像平时的“小数据”一样方便。要做到这一点,一方面需要有更好的IT架构、更好的分析工具,使得普通团队利用大数据成为可能;另一方面,需要政府和业界对于数据的质量、价值、权益、隐私、安全等出台量化的管理措施和方案。当大数据的生态环境形成之后,我们就有可能进一步讨论所谓的大数据平台,并利用这些平台吸引最好的数据和最好的人才。
下面我们介绍四种可能的大数据集成平台。
第一个是能不能在有效地保护隐私和信息监管的情况下建立所谓的数据淘宝,即在符合法律规定的情况,通过这个平台可以自由地上传和下载数据,并实现自由定价等。实际上,在科研数据已经开始这样做了,但其他领域还没有起步。
第二个是能不能产生数据运营商。数据运营商通过先进的IT架构,提供存储和计算功能,以及一些必要的分析工具和软件。一些聪明的人以数据供应商提供的数据为基础开发相关产品,甚至在数据产品基础上进一步开发更好的数据产品。如果数据产品以下载或者API的形式售卖,那么数据运营商、数据提供者、数据开发者等各方都可以从客户使用数据产品所支付的费用中获得收益。
第三个是数据挖掘挑战的平台,我们希望用通过这样的平台把数据挖掘、大数据分析领域最重要的的挑战性问题集中起来。这样的平台不仅能够集中各行业内具有普适性的问题,还可以集中大部分的人才。现在Kaggle喊得最多的口号就是它拥有全世界上百万的数据科学家和数据工程师的联系方式。这些顶尖级人才所提出的解决方案,又成了这个平台上的工具,这些工具将来还可能进一步开发出一些普适性的工具。因此这样的平台将会成为“问题、人才和工具”集中的平台。
最后一种平台,是把不同垂直行业中具有普适性的问题与解决方案进一步抽象提炼出来,建立垂直行业的大数据研究中心,再和产学研联盟以及产业基金联合起来建立大数据研究院,形成一种“三位一体、互为补充”的大数据产业生态。
如何成为大数据企业
要成为大数据的企业、大数据的个人或者大数据的政府,我们需要做很多。以企业为例,要成为大数据的企业,首先其一切生产经营流程都需要数据化,利用企业社会化平台或者将传感器部署到制造生产过程中,以便把这些数据都记录下来;其次企业自身要具备海量数据的深入分析能力,并制定战略数据的储备计划,其中尤其重要的是外部数据的储备计划。我们经常说,数到用时方恨少,一个大数据的企业,除了用好自己的数据外,更重要的是要清楚自身的哪些业务需要外部数据支撑,要把这些数据存储下来。最后,站在平台的高度,企业要以包容的心态开放一些可以开放的数据,参与一些社会化的挑战和竞赛。
大数据给传统科研带来很多改变。
首先,大数据会带来科学研究范式的转变。以前必须是有了数据与理论后才有后续的解释,而研究科学的最终目的是为了预测和控制。现在不一样了,有了数据就可以直接进行预测和控制。
第二个大的变化,以前社会学、心理学和管理学等领域的实验对象往往是几十个人,最多不过几百个人,其研究方法往往是半定量或者是定性的。现在,通过互联网上可以针对几千万甚至上亿人进行实验,而且是非控制化的实验。
这里我想通过几个例子,从三个层面说明大数据是怎样影响科学的,主要包括:第一,大数据提供了哪些新的视角。第二,大数据具有哪些实际作用。第三,科学是一把双刃剑,大数据的科学研究是否可能伤害到在座的各位。
首先看看大数据提供了哪些新视角,先讲Barabasi小组去年在Scientific Reports上的一个工作。在做演化生物学实验的时候,我们相信一个生物总是希望把自己的基因尽可能地传播出去,但是只有在极低等的生物中能够验证这种猜测——我们不会相信一次刻骨铭心爱情背后的驱动力是繁殖。为了在高等生物层面讨论这个问题,这个研究小组分析了5亿条短信和20亿次通话,通过这些短信与通话中分析谁是你的第一好友,这里的“第一好友”是指你发短信或者通话最多的人。研究发现,一个20岁左右的女性,她的最佳朋友往往是男性,而一个20岁左右的男生的最佳朋友往往是女性,这主要是出于繁殖的考虑,他(她)可能是你的一个恋人。有趣的是,当进一步分析第二好友的时候却发现,男性的第二好友往往也是男性,而女性的第二好友往往是一个女性。但有点不一样的是,当你到了四五十岁的时候,男性第二好友的性别往往看不出来了,而女性的第二好友往往是男性。其中的原因是这样的:当男性到了四五十岁的时候,他的第一好友会变成他的老婆,而且男性结婚后对异性的关注下降得比女性快。而对于他老婆而言,一个女性到了四五十岁时,她的第一好友往往是他的子女,所以第二好友容易是男性,就是他的丈夫。而对于男性来说,他的第二好友往往是他的子女。这个发现可能没有什么实际用处,但是它为我们提供了一种全新的视角:即利用通讯技术研究演化生物学的规律。
社会学有一个非常重要的奠基性理论:社会资本等价于经济资本。换句话说,我们的人脉关系,我们和哪些人联系、联系的紧密程度和多样性如何,从某种程度上讲也是我们拥有的经济资本。但这只是一种理论,虽然是奠基性的理论,没有得到证实。2010年,美国《科学》杂志刊登了一篇文章,通过分析英国99%人口的的通话关系,来量化英国3万多个行政区与其它行政区通话的多样性,这就是这个行政区的社会资本。研究人员对比这些行政区的经济发展指数,发现社会资本和经济资本是强正相关的。这个研究第一次验证了刚才提到的社会学的奠基性理论。但这些研究是没有什么实际作用的,因为你不能通过多打电话提高一个城市或者一个行政区的经济水平。
那么大数据能有哪些实际作用呢?我们最近做了一个研究,如果你在互联网上看了你认为很烂的片子,比如“富春山居图”,那么你在下一次评分时实际上倾向于打更低的评分,而不是倾向于打高分;这和很多人的感觉不一样——我看到了烂片,可能下次要打高分。这说明人们的行为有一种“锚定效应”。同样地,你看了一个好片,你下一次会倾向于打更高的分。当把这种“锚定效应”剔除后,就可以大幅度提高个性化推荐的准确度。这说明利用大量的数据分析可以直接解决一些实际问题。
然而,科学是一把双刃剑,大数据带给我们可能的福泽的同时,也带给我们可能的危险。
我举两个例子。第一个是今年发表在Scientific Reports上的一篇文章,它分析了200多万个手机的数据。手机数据的分辨率是比较低的,每一个小时有一个读数,告诉你这个手机的用户属于哪个基站。但实际上,在3个月的时间段中,只要有随机的4次让我们知道在某个小时中你处于某个基站,那么我就可以在200多万人中几乎可以唯一地确定你是谁。这对人的隐私是一个很大的侵犯,因为我们能够比较容易地通过科研和项目合作的方式拿到匿名的电信数据。在座的各位嘉宾都是有很大影响力的人,很多人可能想知道你们的手机,想知道你们去过哪些地方。他们只要在新闻中看一下你在什么时间、什么地点、参加了什么会议,如果恰好你在这期间的前后一两个小时没有关机,通过分析很容易找出你们的手机号码,进而知道你以前去过哪些地方,和哪些人有过联系。
下面介绍一个更典型的例子,是今年剑桥大学和微软研究院在《美国科学院院刊》上发表的一篇文章。研究人员分析了5万多用户在Facebook上点击“喜欢”和“不喜欢”的数据,这些数据可以用来预测你有没有酗酒、属于什么人种,它甚至还可以预测你是不是同性恋。这个案例背后潜藏的一个理论是,对于一个人来说,不同类型的数据,包括你的购物数据、说话内容、社交数据、喜欢和不喜欢的数据、看电影的数据等等,都从不同的侧面暴露了你这个人。基于每一组数据,都可以给你描绘一幅画像,每幅画像都和你本人有所区别,但是其间重复很多。从某种意义上讲,有了上述不同的数据,都可以对你进行预测与判断。
大数据伦理
大数据带来的不仅仅是商业和科学上的变化,更重要的是它带给我们很多观念形态的变化,引发我们重新思考很多问题。并且大数据一旦和很多其它重大的产业创新结合在一起,会产生尤其可怕的结果。举个例子,3D打印除了打印呈现技术和软件设计建模以外,很重要的就是大数据,因为它需要3D的扫描数据。3D打印有两种可在伦理上需要关注的发展趋势:第一个趋势是自己打印自己。随着技术的发展,这种3D打印机可以自己去找一些打印材料,利用太阳能或者其它能量熔化这些材料来打印自己。这样的3D打印机,它的硬件和软件都是开源的,未来可能会有一些人在这些开源硬件、软件中加入一些自己的代码。这些代码是对环境的某种反应,有些代码可能很善良、友好,有些代码可能很不友好,甚至具有攻击性。这些3D打印机的代码可以自己变异、学习,就象遗传算法一样:很多在不同环境变量下产生不同反应的模块通过某一种协议来交互,有的模块成功了,可能中间还有一些变异的机制,它就能复制更多的打印机;有的模块失败了,它的基因传不下去,它复制的打印机就变少了。如果有以二氧化硅为主要原材料的3D打印机出来,我们会问一个问题,这是不是某种形式的生命?它也可以繁殖、进化、变异,它可以活动、交流,甚至它可以攻击人类或者其它生物,那么它未来会怎么发展?
另外一个让人感觉到可怕的趋势是打印生命。现在,我们可以用喷墨打印机打印单细胞,耳朵已经可以移植成功了。以前肾脏只能在实验室外存活一个月,主要是它的血管系统做不好,而最近血管系统打印的难题也攻克了,所以单器官的移植就变得可能了。我们知道,如果要建立一个大厦,用灰尘建立是不可能的;同样的道理,要建立一个生命,用基本粒子是绝对不可能建立的。但是,像用砖头建立大厦一样,用细胞建立一个生命体是可能的。在十几年、二十年的时间里,我相信低等生命的打印机是可以成为现实的。未来有没有可能打印高等生物,甚至打印人类呢?打印人不同于克隆人,如果卡尔。马克思的理念是正确的,那么打印人拥有和我们完全相同的记忆,包括我们深刻的痛苦、感情经历、幸福快乐等等。这样的打印会带来什么样的伦理冲击呢?
我相信,大数据与其他相关产业一起,带来的不仅是商业、科学和眼见即所得的类似智慧城市等的变化,还会带给我们对于生命本质是什么、存在的本质是什么等本体论的思考。希望我们都能成为一个新时代来临前第一批做好了充分准备的人。
推荐经销商