大数据时代的结构和反抗

大数据时代很多人都知道,数字世界的发展和黑客非常有关系。比如微软的比尔盖茨就做过黑客,最新的标志性人物Facebook的扎克伯格也干过这个事儿。Facebook早期的版本Facemash.com就偷偷地接入了哈佛大学的学生数据库,获取了学生证件照。扎克伯格让同学们根据这些照片投票选美,很是热闹了一阵子。

这周,来自华中科技大学的几个学生很彻底地模仿了扎克伯格一回:他们设置了一个名为hust-facemash.com的网站,同样是偷偷摸摸地侵入学校的HUB(华中科技大学公共信息服务平台),把一大堆的女同学照片放到网上让人“选美”。与当年的facemash所引发的舆论抨击一样,华中科大的这个facemash同样引来了不少的担忧和批评。

核心问题就是“隐私”。担忧者认为,在学生档案里,不仅有照片,还有各种其他信息,比如电话住址之类。今天这个facemash只是公布了照片,但其他信息在这些年轻人侵入系统后必然被一览无遗。这又怎不让人担心呢?而这几个学生声称,他们做这个东西的动机只是想提醒一下校方:嘿,你们的网络系统安全弱爆了!

动机论是很不靠谱的,因为谁也不知道他们在倒腾这玩意儿时究竟是抱着善意提醒的目的的呢,还是恶搞玩上一玩,抑或想成为中国的扎克伯格?但结果是很明显的,不仅隐私受到了侵犯,而且自家的照片在自家从未首肯的情况下被别人拿去和其他女孩子放一起评头论足,总不是件令人愉快的事。

如果说中外两个facemash的后果还不算太严重的话,那么,另外几起用户数据库被侵入就很严重了。韩国最大的社交网站cyworld遭入侵,成为韩国取消实名制的动因之一。美国最大的职业社交网站linkedin遭入侵,600万用户密码被公布在一个论坛上。中国亦有类似事件,据称波及千万用户之巨。最近的当当、一号店等电商均爆出用户帐户里的余额被非法挪用的新闻。我们把很多东西放在网上,而这些东西的安全性,看来很值得担忧。

这已经不再是隐私那么简单了。数字经济的高速发展,使得很多事的效率都在提高,当然也会带来一些负面。而这其中诸多的负面,在我看来,最大的莫过于,其实系统是很脆弱的。

我们必须承认,依托网络,每个人之间的“距离”变得更近了,我们越来越成其为一个整体。但重点就是这个“依托网络”。服务器记载着我们太多的东西,这个整体变得越来越结构化,只要攻破其中一点,整个整体就会出现剧烈的动荡,受侵害人口动辄数十乃至数百万。过去的一个银行体系的被侵入和今天的(假定的)Facebook被侵入,后果简直是天壤之别。

互联网诞生之初,走的就是“去中心化”道路,阿帕奇网络的构想就是在美国遭受斩首式攻击时,有其它节点可以迅速补上成为中心控制。但这个互联网从web1.0、web2.0一路走来,进入大数据时代后,大量的用户数据被存在服务器端。是的,节点越来越趋去中心化,但数据却越来越中心化。我们已经“让渡”了一些很重要的东西给机器,但机器,却并不牢靠。

加强安全性是一个方法。但正如福尔摩斯的创造者柯南道尔在《跳舞的人》里写道:有人发明,就有人看懂。再强的安全体系,都有被侵入的可能。而之所以很多看似松松垮垮的系统没有被侵入的原因其实很简单:不值得。解密是有成本的,但如果标的物诱惑足够,成本便会相对变得小很多。又有什么样的系统是100%的安全呢。数据越来越集中化,使得这个标的物的诱惑,变得越来越大。

加强对黑客行为的处罚也是一个方法。华中科技这两位学生会面临什么样的惩处尚不知晓,扎克伯格可是因为facemash领了哈佛的留校察看处分的。一些后果并不严重的行为小小惩戒一下即可。但类似cyworld和linkedin的被入侵,一个警告是完全没有用的。

不过,话也要说回来。数据集中化加强了整个社会的结构化,体系会变得越来越有利于既得利益者、掌权者和有钱人。漏洞的存在,对当事人是一种不幸,但对于整个社会而言,或许又是一种不幸中的大幸:反抗成为一种可能。哈维尔所谓“无权势者的权力”,在今天这个社会,大抵就会具象成如此吧。

波澜壮阔的基于数据的结构和反抗(或又可称之为解构)在大数据时代已经悄然登场。人类社会,终归是在矛盾中一路前行的。但这种结构或者反抗,最终是否会彻底失控,谁也不知道。

—— 《东方早报》约稿 ——

信息生产之后:读《新数字秩序的革命》

新数字秩序的革命 美国纽约大学的克莱舍基,有两本为国人所翻译过的著作,一为《未来是湿的》,一为《认知盈余》。前者论述的是人们如何在无组织的情况下生产信息,后者则讲述这些“盈余的”信息(人们自发贡献分享)是如何成就价值的。这两本书都不错,但比起戴维温伯格的这本《新数字秩序的革命》,我个人以为,稍逊一筹。

问题的关键在这里:信息时代,我们要讨论和关注的主题,其实不是信息生产——因为事实上信息供远远的大于求,今人是被淹没在信息海洋中的——而是信息的组织、管理和定位(搜索)。舍基的两本书都是在讲信息生产,温伯格的,则是在讨论后者这一更核心的命题。

有一本书名为《三鹿人成功之路》,出版于2005年,想必是三鹿未出事之前的公关作品。在现实世界的图书馆里,这本书不是放在经营管理类就是放在公司传记类。不过,在豆瓣上,网友们给它加注的标签中最火三个的依序是:奇幻、强大的书名、奇书。换而言之,你可以在豆瓣的“书标签”这个栏目里,通过奇幻找到它——这是和图书馆完全不一样的信息组织结构,按照温伯格的说法,这叫“第三层秩序”。

在温伯格看来,所谓第一层秩序,就是现实世界的物体秩序,比如图书馆里汗牛充栋的书罗列在书架上。受限于物理空间,我们需要第二层秩序来检索书籍,于是便出现了图书分类索引(其中甚为经典广为采用的就是杜威编目法)。这些分类索引写在卡片上,按某种序列排列,放置于橱柜中。当我们找书时,先从分类索引下手,然后获知在哪个书架,然后再按图索骥寻找之——这被称为第二层秩序。

第二层秩序的重要性在于:我们根本没有这个可能不通过它直接从第一层秩序找我们想要的书。因为它使得物理空间的需要度变得小很多。但第二层秩序的问题在于:它依然是图书馆式分类,依然是由一小撮人(比如图书馆管理员)为大众进行图书类别选择。以前面一个例子而言,没有这个可能你能通过“奇幻”这个类别在图书馆里找到《三鹿人成功之路》这本书。

在虚拟的信息世界中,第三层秩序出现了。它是一种“大众化分类”,核心的要件被称为“tag”(中文没有太好的翻译,姑且翻译为标签)。每一个人都可以自行为一则信息添加自家想要的标签,比如给联想收购IBM笔记本这则新闻添加“豪赌”。这种随意分类,在大规模参与后,会在一种表层的混乱下,形成信息的高效率定位。标签式分类,正如温伯格所言“我们组织世界的方式不但反映了世界,也反映了我们的兴趣、我们的激情、我们的需求和我们的梦想”。

标签式分类可以形成从书籍A到书籍B的跨界过渡(这是杜威编目法很难做到的)。杜威为全世界的书找“唯一的”图书分类方法,而标签法则允许每一个人为自己建立一套独一无二的体系。温伯格写道:“杜威崇尚精确性、规定性和十进制数字的独特性,而亚马逊则毫无节制地将一本又一本的书扔到你面前。同图书馆书架上一排排整齐的编过号的书籍相比,亚马逊就像是一场书籍嘉年华”。在爆炸的信息面前,显然,标签制其实有更高的效率。

我个人是一个信息图控,非常喜欢收集各种与互联网新媒体有关的信息图,大致已经有4-5000张的规模。但信息图的管理是一个很麻烦的事。比如一则主要讨论利用搜索引擎做营销的信息图,在电脑里应该放那个目录夹呢?搜索引擎目录夹,还是网络营销目录夹?可能的解决办法是:拥有两个不同的副本放在两个目录里,或者在一个目录里存放,另一个目录里放一个快捷做指向。

不过,我的解决方案是到网络上建立一个小小的网站,将这些信息图传上去,并为每个信息图做“标签”处理。在这个时候,每一张图片都只有一个副本,但点击标签,却可以获得这个标签项下所有的信息图。这是一个其实更井井有条的方式,并且还顺带兼备了“分享”这个功能——任何一个人都可以访问这个小站。

稍稍比较一下这两种对信息图的管理方式。在电脑里,其实一种嵌套式的目录结构,也就是一种树形图(windows资源管理器的左侧很好地反映出这种树形结构)。每一个目录存在着上下级关系,所谓它的父目录和子目录。目录与目录之间,绝无交集,因此不可能存在只有一张信息图却同属于多个目录。但网络上的标签结构,却互无同属,交叉现象极其普遍。对于“索引家要么是合并论者要么是分割论者”而言,这种方式实在是太混乱了。

但是,现实世界其实并不是树形的,只不过我们一直被教育成树形的(想想那个生物谱系吧,全世界的生物被置入一个树形结构中,有且仅有一个位置),这个结构一直可以上推到亚里士多德时代,我们的认识一直受到这种思想的桎梏却浑然不自知。

温伯格的这段话非常精到,请允许我全部引用之:

(树形体系)“必须以牺牲丰富性和深度为代价来达成广泛性。这是有组织树形结构的本质,因为它们构建的基础就是一遍又一遍地使用同一种关系:b是a的一种,或者b影响向a报告,又或者b是a的孩子。无论各个分支体系是何种关系,这种关系都太过简单化了,根本就不能体现事物自身及其相互关系的复杂性。”

树形结构被破坏而导致“革命”的一个典型例子就是纸媒在网络面前的节节败退。一个很重要的原因在于它的信息组织方式依然是树形的,每一篇文章有且只能存在于一个版面下的一个栏目中。通过对信息的编排,编辑(信息索引者)其实比记者(信息制造者)权力更大,因为“他们能够决定让什么浮出水面,又将什么彻底忽略。”

但网络编辑不是——某种程度上,也是网络编辑看似没有传统媒体编辑风光的原因——到了由用户产生内容的web2.0,网络编辑几乎就是一个维护性的工种了。“分类是一种权力的角逐,它是政治性的,因为第一层秩序和第二层秩序要求出现赢家”。可在标签的世界里,第三层秩序中,

“统治者是比特,还有多姿多彩的混乱”。

—— 《网络传播》杂志供稿 ——