社交网站推特(Twitter)拥有世界上最大的现代语言数据库,这对语言学家来说意味着无限的研究价值,但推特公司方面还是越来越严格地限制人们获取其数据。这真是个悲剧。

    我们能从“推送”中学到很多东西,但前提是推特公司允许。

    明星、政客、各国领导人、新闻机构、数以百万的普通用户,甚至偶尔上来打个酱油的猫,他们每天通过“推送”谈论他们的早餐、自然灾难、政治事件和全球热点,像奥斯卡和超级碗。伴随着每天数百万的“推送”量,推特已成为重要的历史文化档案,同时也是科学界极有价值的信息来源,其中囊括了政治学、历史学、文学、语言学和其他任何你能想到的学科。

    但近些年,推特严格限制研究者提取信息。

    对大多数研究者来说,首要问题是他们的数据库不够大,要知道,数据库越大,研究价值越高。例如语料库语言学,就是一门对数以亿计的词汇数据煞费苦心地进行分组和注释的学科。最大的语料库有超过4亿5000万个词组,而对于每天有5亿条“推送”,平均每条包含15个词的推特来说,收集这么大的语料库用不了一天就搞定了。

    无论对于数据爱好者还是专业学者,推特已经显示出其作为数据库的价值。埃德温·陈是一位推特数据学家,他在推特中搜索“可乐”、“苏打”、“汽水”这样的软饮料关键词,以研究这些词汇的用法。结果显示,利用推特得出的结论和利用其他数据库得出的结论大致吻合,这从某种程度上证明了推特作为研究工具的价值。

    在学术方面,据《纽约时报》去年10月的报道,科学界正通过推特中的相关“推送”,来研究人们对类似“阿拉伯之春”等重大事件的情绪反应,也有学者研究情绪随日常生活节奏的变化规律。最近,一些研究者发现,他们能通过机器学习与自然语言处理等手段,来判断“推送”中的信息是真是假。但是推特向媒体公司的转化正在让研究者的信息收集工作越来越难。

    由美国标准技术局和美国国防部赞助的国际文本信息检索协会(TREC),自1992年来就致力于帮助和信息检索有关的研究工作。此前,该组织举办过全文检索建议会议,旨在帮助律师在法律数据库查找相关信息,或帮助医护人员获取相关医疗记录。从2011年开始,该组织有了微博记录项目,研究推特上的搜索行为。

    2011年的大会上,TREC本想为58个组织提供两周内的1600万条微博信息,从埃及革命到美国橄榄球超级碗,内容涵盖非常广。但与会者最终得到的只是1600万条微博的标识码和允许他们自己下载的一套工具软件。

    伊安·索布洛夫是微博记录项目的领导者之一,他告诉记者,推特虽然允许学者下载自己想要的微博数据,却不允许他们分享这些数据。这一系列问题是从推特2011年初的API服务条款推出后开始的,条款中增加了“禁止任何推送二次分发”。

    条款的变化直接影响到一系列组织和初创企业。例如Twapperkeeper,一个帮助研究者按特定关键词收集微博的企业,不得不关闭。推特上第一个研究微博政治和文化影响力的小组,也再不能向感兴趣的大众分享他们的数据。对于其他学者,他们甚至不能收集微博数据了。

    这一变化大大打击了推特数据研究。通过共享数据,研究者们能够互相从数据中挖掘问题、检查漏洞以及证实研究的可信度。但推特的条款使这一切不再成为可能。

    目前,推特似乎并没有要松口的迹象,虽然其技术改进乃至最终实现盈利,大部分都要依靠研究者们的发现和成果,但如果不让研究者们分享微博数据库,激动人心的研究成果也许就难以出现了。

    为了保住底线,推特该何去何从?如果把研究局限在一小群研究者范围内,研究毫无疑问将会变得成本昂贵且耗时,群众参与的利好也不复存在了;如果推特自己建立微博数据库,并让其他研究者有限制地获取数据,那么如此大的数据维护带来的种种困难就会随之而来,推特显然不愿承担这些成本。最佳的方案是,人人参与,让研究员自由获取并自我维护数据库。

    最现实的选择是,向研究者们开放微博数据。但在开放数据和限制准入之间是否有两全的做法呢?最简单明了的方案就是,将数据库授权给一家独立教育机构。“当代英语语料库”就是这样一个例子,这是由美国杨百翰大学管理的全美最大的英语语料库,任何人都能从该语料库查看数据界面,但原始数据始终得到保护。对于推特与日俱增的影响力和其不断丰富的语料数据,相信语言学系必会对此倍感兴趣,从而接手管理这样一个微博数据库。

    此外,美国国会图书馆也是一个选择。该图书馆与推特达成协议,将存放推特微博的完整档案,这让双方的科研承载力都大大加强。

    不管是推特还是国会图书馆,创建一个具有研究意义的数据子集将会非常有用。伴随着微博爆炸式的增长,图书馆怎么把这些数据方便地提供给搜索渠道,这将是一个长期而困难的技术难关。

    当然,这肯定不是句号,学术界从来没有被数据难题阻碍前进步伐,研究者们正在想方设法地突破推特的技术限制。这个几乎是当今世界最大的可用现代语言资料库,对历史、政治和社会学都极具重要性,如果变成科研禁区,那是多么令人遗憾。

    □buzzfeed.com