数据的征服:读《大数据时代》

1ea94fac38484fe45b2652d25d94d6f1谷歌有一个名为“谷歌流感趋势”的工具,它通过跟踪搜索词相关数据来判断全美地区的流感情况(比如患者会搜索流感两个字)。近日,这个工具发出警告,全美的流感已经进入“紧张”级别。它对于健康服务产业和流行病专家来说是非常有用的,因为它的时效性极强,能够很好地帮助到疾病暴发的跟踪和处理。事实也证明,通过海量搜索词的跟踪获得的趋势报告是很有说服力的,仅波士顿地区,就有700例流感得到确认,该地区目前已宣布进入公共健康紧急状态。

这个工具工作的原理大致是这样的:设计人员置入了一些关键词(比如温度计、流感症状、肌肉疼痛、胸闷等),只要用户输入这些关键词,系统就会展开跟踪分析,创建地区流感图表和流感地图。谷歌多次把测试结果(蓝线)与美国疾病控制和预防中心的报告(黄线)做比对,从下图可知,两者结论存在很大相关性:

但它比线下收集的报告强在“时效性”上,因为患者只要一旦自觉有流感症状,在搜索和去医院就诊这两件事上,前者通常是他首先会去做的。就医很麻烦而且价格不菲,如果能自己通过搜索来寻找到一些自我救助的方案,人们就会第一时间使用搜索引擎。故而,还存在一种可能是,医院或官方收集到的病例只能说明一小部分重病患者,轻度患者是不会去医院而成为它们的样本的。

clip_image002

这就是一个典型的“大数据”的应用例子,舍恩伯格的这本《大数据时代》受到了广泛的赞誉,他本人也因此书被视为大数据领域中的领军人物。大数据起源于数据的充裕,舍恩伯格在他的另外一本书《删除》中,提到了这些源头。

1、信息的数字化,使得所有信息都可以得到一个完美的副本;2、存储器越来越廉价,大规模存储这些数字信息成本极低;3、易于提取:数据库技术的完善使得这些存储的信息能够被轻易按照一定的条件搜索出来;4、全球性覆盖,网络是无国界的,a地的数字信息可以让远在天边的b地调用。

当我们掌握有大量的数据后,便可以开始进行所谓“大数据”的操作。大数据在舍恩伯格看来,一共具有三个特征:全样而非抽样,效率而非精确,相关而非因果。

第一个特征非常好理解。在过去,由于缺乏获取全体样本的手段,人们发明了“随机调研数据”的方法。理论上,抽取样本越随机,就越能代表整体样本。但问题是获取一个随机样本代价极高,而且很费时。人口调查就是典型一例,一个稍大一点的国家甚至做不到每年都发布一次人口调查,因为随机调研实在是太耗时耗力了。

但有了云计算和数据库以后,获取足够大的样本数据乃至全体数据,就变得非常容易了。谷歌可以提供谷歌流感趋势的原因就在于它几乎覆盖了7成以上的北美搜索市场,而在这些数据中,已经完全没有必要去抽样调查这些数据:数据仓库,所有的记录都在那里躺着等待人们的挖掘和分析。

第二点其实建立在第一点的基础上。过去使用抽样的方法,就需要在具体运算上非常精确,因为所谓“差之毫厘便失之千里”。设想一下,在一个总样本为1亿人口随机抽取1000人,如果在1000人上的运算出现错误的话,那么放大到1亿中会有多大的偏差。但全样本时,有多少偏差就是多少偏差而不会被放大。诺维格,谷歌人工智能专家,在他的论文中写道:大数据基础上的简单算法比小数据基础上的复杂算法更加有效。

数据分析并非目的就是数据分析,而是有其它用途,故而时效性也非常重要。精确的计算是以时间消耗为代价的,但在小数据时代,追求精确是为了避免放大的偏差而不得已为之。但在样本=总体的大数据时代,“快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多”。

第三个特征则非常有趣。相关性表明变量A和变量B有关,或者说A变量的变化和B变量的变化之间存在一定的正比(或反比)关系。但相关性并不一定是因果关系(A未必是B的因)。

亚马逊的推荐算法非常有名,它能够根据消费记录来告诉用户你可能会喜欢什么,这些消费记录有可能是别人的,也有可能是该用户历史上的。但它不能说出你为什么会喜欢的原因。难道大家都喜欢购买A和B,就一定等于你买了A之后的果就是买B吗?未必,但的确需要承认,相关性很高——或者说,概率很大。

舍恩伯格认为,大数据时代只需要知道是什么,而无需知道为什么,就像亚马逊推荐算法一样,知道喜欢A的人很可能喜欢B但却不知道其中的原因。这本书的译者天才教授周涛则有不同的看法,他认为,“放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落”。

这个争议在我看来,双方讨论的可能不是一回事。舍恩伯格在这本书中完全不像他在《删除》一书中表现得那么有人文关怀,这是一本纯商业的书籍,商业本来就是以结果为导向的。但周涛谈论的却和“人工智能”有关。

吴军在他的《数学之美》中曾经提到,人工智能领域曾经走过一个很大的弯路,即人们总是试图让计算机理解人类的指令——注意,是理解,不是知道。但折腾了很多年,发现计算机的理解力实在白痴得比三岁小孩还要弱。最终人工智能放弃了这条途径,而改为数据传输和匹配。举个例子说,你在进行语音输入的时候,事实上计算机完全不知道你在说什么(或者说,完全不理解你的意思),但不妨碍它能够准确地把你说的话尽可能地用字符表达出来。苹果的Siri是很神奇,但它其实并不懂你的意思,而只是你的语音数据和它的后台数据一次匹配而已。

因果关系涉及到“理解”这个范畴,而不是简单的知道或匹配。舍恩伯格所谓放弃因果而寻求相关,是因为他本来就是写本商业书,要具体指导商业运作的,周涛所谓不可放弃因果,因为他是一名学者,并不完全站在赚钱这个角度上。换而言之,周涛看的是长远的未来,舍恩伯格讨论的是眼下。

在可以看到的未来中,可能计算机掌握不了三岁小孩的理解力,计算机和人类之间的象棋比赛,一个在思考,一个在做数据匹配,两者虽然都在下棋,路径却全然不同。人类可以暂时不用过于担心计算机来统治人类,因果关系这种理解,还是掌握在人类手中的。

大数据时代是信息社会运作的必然结果,而借由它,人类的信息社会更上一个台阶。农业社会人们以土地为核心资源,工业时代转为能源,信息社会则将变更为数据。谁掌握数据,以及数据分析方法,谁就将在这个大数据时代胜出,无论是商业组织,还是国家文明。

—— 《网络传播》 供稿 ——

记忆外部化已无可阻挡:读《删除》

删除1月,中文译书中出了两本同为舍恩伯格撰写的书籍:《大数据时代》和《删除》。舍恩伯格因前者而被称为这个领域中的领军人物。但事实上,这本书的原版出版日期远远晚于《删除》——后者的出版时间是2009年。而且,《删除》这本著作所获得的认可比《大数据时代》更甚:它被授予媒介环境学会颁发的“马歇尔麦克卢汉奖”。

这里有必要稍微介绍一下“媒介环境学”,它是传播学三大流派之一,又被称为多伦多学派。在中国比较显赫的是实证主义学派(行政研究学派),也有一些学者译介了大量发源于欧洲的批判学派(比如法兰克福学派以及哈贝马斯的作品),但媒介环境学的地位在大陆显然不如这两个学派。诚然麦克卢汉这个名字的确如雷贯耳,不过事实上有很多人并不见得多了解他。

被媒介环境学会授予顶级奖项,代表着一个知名学术流派对该书的极大认可。媒介环境学总体上关注媒介技术对社会文明的影响,而这本书恰恰在谈的是:人类的记忆在外部化,从模拟时代演化到数字时代后,记忆已经无法被删除。舍恩伯格反复写道:记忆成了常态,遗忘才是例外。

舍恩伯格认为,有四个因素在驱动记忆常态化:1、信息的数字化,使得所有信息都可以得到一个完美的副本;2、存储器越来越廉价,大规模存储这些数字信息成本极低;3、易于提取:数据库技术的完善使得这些存储的信息能够被轻易按照一定的条件搜索出来;4、全球性覆盖,网络是无国界的,a地的数字信息可以让远在天边的b地调用。这四个因素一环套一环,最终让“世界被设置为记忆模式”。舍恩伯格这样写道:

数字化记忆的三个特征:可访问性、持久性、全面性,使得这种影响(即我们对自我信息控制减弱)成为可能。

这样的观点,是相当有洞见的,特别对于着眼于媒介技术变迁所带来的影响的媒介环境学而言。麦克卢汉说“媒介是人的延伸”,舍恩伯格再一次为这句话添加了一个注解:我们的记忆已经在向外延伸,完美地近乎永久地被存储到外部且能为他人调用。这算不算一种“共同记忆”?谈不上,至少舍恩伯格在这本《删除》中没有那么乐观。仅就这本书而言,作者应该被归于媒介环境学中技术悲观这一翼。

谷歌的董事长施密特在去年3月出席美国国家新闻基金会颁奖晚宴时,表示互联网不是“乌托邦”。他列举了互联网的三大潜在威胁,分别是:黑客和罪犯、无删除按钮导致个人隐私泄露、互联网审查体系。但在我看来,这三大威胁,归根到底是一个威胁:我们无法控制我们想要的删除。罗伯特基欧汉和约瑟夫奈两位学者曾经指出,信息的力量来源于对信息获取的控制能力。但我们作为普通人而言,已经丧失了这种力量:我们生产信息,但我们无法控制它如何被获取以及该不该被获取。舍恩伯格不无忧虑地认为我们生活在一个时间维度上的圆形监狱,独裁者已经可以通过不控制我们的大脑而仅仅控制外部记忆就可以完成他的独裁。

舍恩伯格在这本书中,用了近乎一半的篇幅(第五、六、七章)来讨论如何面对这种数字化记忆的威胁,并主张来一场“互联网遗忘”运动。在我看来,这三章的内容相较于前四章犀利的分析,水准已经有所下降。老实讲,这几乎已经成了不可扭转的趋势(即便很让人悲观),而舍恩伯格自己,也在13年出版了他的《大数据时代》:鼓吹如何利用这些外部记忆去赚取商业利益。作者在本书中的最后一句话:遗忘是一种美德——很幸运,它本身将被遗忘。

—— 阳光时务 约稿 ——

后记:我曾经在去年4月写过一篇题为删除的文章,向上帝起誓,写那篇东西时我并没有看过这本书。看来我也是有去拿麦克卢汉奖的一点点灵感的,哈哈