词媒体

网易《数字与人》专栏上周一文章

—————— 全文的分割线 ——————

今天,这个社会的造词能力是越来越强了,新词出现的频率史无前例得在加快。有些新词,一望便知,比如“囧”这个词(字),虽然有考据者反复说这个字的本意不是如此,但看上去是颇有些尴尬的形象,算是给老词赋予新意。而有些词,则背后代表着一个社会事件,比如“正龙拍虎”,不明白那个事的,的确完全不了解这是什么意思。

另外一个社会现实是知识分得越来越细,在今天,没有人敢说自己诸子百家无所不晓,天上地下博古通今。知识分得越来越细的结果就是,大量专业词汇出现。在一篇很普通的文章里,出现几个专业名词不是什么怪事。为了更好地理解文章,人们的确有必要去知道这些专业词汇到底指代什么。

在大多数传统媒体里,很难对专业词汇或新词做比较详尽的解读。唯一能做到的,是书籍。这也正是我们经常看到的书本中的所谓注释。在报刊杂志,在电视广播,专业词汇的解读只能匆匆带过。但互联网的链接属性,给这种解读带来了莫大的方便。

比如在一篇常识性的金融文章里,作者提到了“布雷顿森林体系”。报刊杂志可能会在最后给出一段小小的解释,电视能做个小字幕,广播则不可能——不是泛泛而谈,就是无能为力,但对于网页来说,只需要给这七个字加上一条链接:指向这个词的解释页面,而这个页面里的内容,可以极其详尽。

呵呵,是,这个解释页面,非常像维基或百科的形式。于是,国内有家做百科的网络公司,不遗余力地在鼓吹所谓:词媒体,并坚信,基于词媒体带来的web广告模式是未来可期的商业逻辑。

词媒体要分两个方面来看。

就阅读而言,词媒体会更好地帮助读者去解读文章,帮助读者去增进知识。词媒体所指向的维基式页面,也会由于“人人都可以编辑”而让内容变得更为翔实和丰富。而对于写作者来说,也没有必要煞费苦心地在文中去解释这些词的含义,一来避免显得冗长,二来不破坏文章结构。词媒体的确符合互联网的内容组织形式:网状的跳跃式的结构。

但从另外一个角度看,词媒体的实际操作性,还有很大的问题。

前面我提到在文中部署对专业词汇的链接,这其实一个“自动链接”的操作手法。因为你很难想象,在比较大规模的网站中,完全依靠编辑去手工部署链接。自动链接的运作机制是这样的:系统需要扫描一遍整篇文章,再和数据库中已有的专业词汇库比对,如果有,则赋予链接,没有,则跳过继续扫描下去。

这个机制说起来简单,但做起来相当消耗资源。如果你的专业词汇库不过千把词,那是一个很快的比对过程,但如果是十万乃至数十万之巨的专业词汇库呢?更进一步的,这里同样有一个“分词”问题——系统需要判断在“销售和服务”这个字段中,无需添加“和服”的自动链接——以及一个优先级的问题:在“复旦新闻学院”这个字段中,究竟将自动链接赋予新闻学还是复旦新闻学院。

在水平性质的门户网站中,使用同一套专业词汇库是不现实的。但在它的某个频道,或者说,在一些专业垂直网站中,使用一套契合的专业词汇库还略有操作性。不过,对于百科式的词媒体内容服务商而言,它面临一个两难的问题:如果词汇够多,合作者的系统负载就比较大;如果词汇不多,合作者就没必要合作,自己建一个不是什么难事。

比较可行的做法是提供API接口,让合作者自行定义关键词词汇表,并利用这个API接口,将这些词汇链接指向到百科页面上。这样,对于合作者而言,词汇库的大小以及带来的负载问题,完全由它自己决定。有实力的,可以搞得大点,没有实力的,借助点缓存技术、伪静态页面技术,就稍许搞得小点。不过,在我看来,百科网站起步期间最好的合作对象还是垂直网站,而不是水平门户。

12 thoughts on “词媒体”

  1. 前排就座

    我个人觉得,分词技术本身已经比较成熟了,“销售和服务”这样的词组在绝大多数情况下都会被切分成“销售/和/服务”,我在研究生时的专业是语音技术,在语音合成时就需要运用这一技术。但如果仅仅是对文字的阅读和延伸阅读,其中恐怕还要考虑的是社会性,特别是对于一些非专业名词,或者是类似于“复旦新闻学院”这样对于用户来说有不同需求的名词(有些用户对“复旦新闻学院”有进一步了解的需求,有些用户则是对“新闻学”有进一步了解的需求),单纯的技术分词手段可能就有些力不从心了,必须加上社会特性和用户需求分析挖掘的结果才能获得更好的效果。

    1. 销售和服务其实只是一个很浅显的例子,我相信稍许有点规模的网站都能处理好这个分词问题。但中文语境中,的确存在很多不那么好分的现象。网上盛传的一些关于会被中移动屏蔽的段子其实就是个分词问题。

      但复旦新闻学院和新闻学就更麻烦一些,这个在英文世界中同样会碰到。不过英文世界还可以用大小写来区分,但中文很难弄。我给我们学院网站加过一个alink的系统,就碰到这类问题。这方面,用户需求也很难判定吧

      1. 我其实想说的就是,单纯技术上的“分”其实并不难,关键在于汉语本身,不管是文字还是语音,都是以“字”为基本单位而非“词”,赵元任先生也曾经说过,“在中国人的观念中,‘字’是中心主题,‘词’则在许多不同的意义上都是辅助性的副题”,也就是说,汉语中的词其实是字的延伸,所以当这个延伸的边界无法确定的时候,就会出现复旦新闻学院和新闻学这样无法区分的情况。我之前所在的研究所有位老先生,也是语音和音韵学界的泰斗级人物,他曾提出过“字组”的概念,这样的划分或许会比从词的角度来划分汉语的语法结构更加清晰。如果要从文字上来划分字组的边界,我觉得能用计算机算法实现的方式,我觉得可能还是只能寄希望与类似于Google保存使用偏好并根据用户的使用偏好进行分析和识别的技术了。

        1. 我以我们学院为例。中文是“媒体与设计学院”,英文是“School of Media and Design”。英文这里也碰到问题的。比如这个media怎么算,似乎和汉语不汉语关系不大。当然,用大小写是个不错的区分方式。

          1. 说到这个,我想起我本科的时候有个老师一直在锲而不舍地推广他的“词式书写”,按他的观点,复旦新闻学院应该写成“复旦 新闻学院”,这样也算解决了些问题。不过诸如媒体与设计学院这样的结构,确实是个问题。

          2. 我们自己也常使用一些空格来分割字组。字组,这确实是个好办法。
            某些容易歧义的场合,我们自己就那么做。

  2. 词媒体肯定有广告价值的。看看现实生活中,每个具有广告价值的角落都会被发掘,包括洗手间;而广告更是互联网的基本盈利模式,一定会占领有价值的空间。至于具体实施,我想迟早有办法解决的。

    魏老师的博客估值怎么一直不变呢?我注意很久了,前2个和末两个数字一直是63和65,哈哈!随着影响力增大数字应该变动,至少也要考虑通胀嘛,呵呵

    1. 侧边栏那个玩意儿,其实是不更新的,我去过那个网站,发现只要输入一次网址,它就永远定型了,再也不会改变,我正考虑去除之

  3. 老师,我看您的这篇文章,觉得您对分词技术有些地方存在认知误区。
    尤其这个“借助点缓存技术、伪静态页面技术”,跟分词有什么关系呢。那至多是减缓服务器的I/O压力而已,对分词的命中率等等并无实质性作用。

    1. 和分词没有关系,但和页面文章比对数据库中的词有关系。这是提高页面访问效率的做法,的确和分词命中率没有什么关系。我许是写得不够清楚吧

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据