互联网档案将提供09年以来所有美国电视新闻
CNN主持人约翰·金(John King),他的节目已被互联网档案录制 (腾讯科技配图)
腾讯科技讯(童云)北京时间9月19日消息,在亚历山大图书馆(Library of Alexandria)遗迹一根古代柱石的启发下,数据聚合和数字化巨头互联网档案(Internet Archive)的创始人布鲁斯特·卡利(Brewster Kahle)产生了创建这家公司的宏大愿景。
“我们想要收集人类所创造过的所有图书、音乐和视频。”卡利说道。
从周二开始,互联网档案的在线收藏品将会纳入过去3年时间里由20个不同频道所创造的每一条新闻,涵盖1000多个新闻系列,这些新闻已经生成了35万多个独立的新闻节目。
互联网档案已经将数以百万计的图书数字化,并正试图收集过去15年时间里每个网页(总数在1500亿个网页以上)上所发布的每件事情。而这家公司为了实现其抱负而付出的这项最新的努力并非仅针对研究者,同时还为普通民众服务,卡利说道。互联网档案网站每天的独立用户访问量为200万,其中一部分来自于普通民众。“此举旨在帮助美国选民能够更好地审视候选人及相关事宜。”他说道。“如果你想要确切地知道米特·罗姆尼(共和党总统候选人)在2009年就医疗保健问题发表了什么言论,那么你能在这里找到。”
当然,如果想要基于一个表明某位政治家立场转变的视频剪辑来怀疑或挖苦他(她),那么这个网站也将会让事情变得更加容易。或者,就像卡利所说的那样,“让一千个乔恩·斯图尔特(Jon Stewart,美国喜剧中心电视台的新闻讽刺节目“囧司徒每日秀”的主持人,他的节目主要是用搞笑的形式讽刺新闻事件和人物)绽放起来。”
许多传统新闻频道的内容都将被纳入其中,比如说CNN、福克斯新闻、NBC新闻和PBS等。此外,本地电视台的新闻也将被涵盖在内。举例来说,斯图尔特主持的“囧司徒每日秀”就将成为1000多个系列的新闻档案的一部分内容。“我们认为那绝对是新闻。”卡利说道。
互联网档案一直都在不声不响地从所有这些新闻频道录制新闻材料,卡利表示,这意味着该网站不仅会录制CBS的电视新闻节目《60分钟时事杂志》(60 Minutes),同时也会录制CNN电视台在每一天的每一分钟所播放的节目。从周二开始,所有这些内容都将面向那些想要一头扎进故纸堆里的人免费提供。
卡利说道,搜索信息的方式是使用新闻节目中的闭路字幕,用户只需输入搜索关键词,然后在设定某种时间框架,匹配的新闻视频剪辑就会出现。卡利预计,用户可能会搜索到数百个匹配结果,但他指出,互联网档案网站的系统拥有一个良好的用户界面,能用户用户很容易地迅速浏览30秒钟的视频剪辑,最终找到自己想要的东西。如果研究者想要整个节目的拷贝,那么互联网档案会出借DVD。
亚历山大图书馆是古代埃及用来存放知识的档案馆,它的遗迹所带来的启发并非什么无聊的东西。卡利说道,当他设想利用互联网几乎无穷无尽的容量来作为现代版亚历山大图书馆的想法时,收集人类文明著作的构想就已经在他的脑海中初步成型。“你可以把国会图书馆中的所有图书都变成一堆磁盘,用百思买的一辆购物车就能统统装下。”卡利说道。根据他的估测,互联网档案目前所容纳的数据总量已经达到了约9000TB;而与此相比,根据今年早些时候公布的一项估测数据,国会图书馆的数字藏书库所容纳的数据总量仅为300TB多一点。
卡利将自己称作是一名技术专家。他表示,在将此前创立的两家数据挖掘公司分别出售给AOL和亚马逊以后,他就转向了这个互联网档案项目。与他掌管下的其他档案项目一样,这个电视新闻项目的资金也主要是来自于外部捐助,但启动资金则是由卡利自己拿出来的。他表示,来自于国家档案馆、国会图书馆以及其他政府机构和基金的捐助构成了这个项目大多数的资金来源。他将这个项目的年度预算定为1200万美元,并透露目前大约有150人正在为这个项目工作。
根据1976年签署的一项联邦版权协议,复制所有这些新闻材料的行为是受到法律保护的。范德堡大学(Vanderbilt University)在1968年启动了一个新闻聚合项目,随后这个项目受到司法挑战,而这项联邦版权协议的出台就是政府对此作出的回应。
互联网档案无意取代新闻机构旗下的网络媒体,也无意与其进行竞争。卡利说道,互联网档案所收集的新闻材料在首次播出的24个小时以后才会收入其中。“我们不认为这会取代CNN.com。”他说道。
鉴于新闻收集本身所拥有的庞大性特质,互联网档案现在所做的一切还都只是个开头,卡利说道。这项计划会逐年“向后推移”,逐步将电视刚刚出现时的新闻视频纳入其中。则会将要求一些新闻很可能需有更具挑战性的搜索方法,原因是闭合字幕直到2002年左右才开始通用。
卡利表示,某些新的技术将变得必要,比如说很可能需要涉及词汇识别技术等。“我们需要某种足够好的界面,而且不能过分打扰商业化运作,以免新闻机构对我们感到不满。”他说道。但是,与互联网档案已经从事的其他所有服务一样,这项新闻服务的目标也仍旧是雄心勃勃的。“是的,我们希望做到的事情是,最终能让很久以前的新闻节目变得可用,比如说是1965年的政治会议。”