我们有历史博物馆搜藏文物、有图书馆搜罗古书,当然也会有组织是专门「搜藏网站」。上图这个 WayBack Machine 是一个专门搜藏网站存档的网站,不管是现在还在、或是早已被砍掉的网站、网页、甚至影音资料都有机会在这个网站里找到!
在认识这个网站的历史之前,我们先看看到底 WayBack Machine 有什么能耐吧!我用来测试的是曾经的台湾之光、后来被直接砍掉说掰掰的「无名小站」,不过我实在不太记得还有谁的无名(我自己没用无名)可以搜寻,所以我就找到无名大名人「弯弯」来当这次测试的对象。在经过一番搜寻(我的最爱里早就砍掉啦!)之后,终于找到当初弯弯部落格的网址「www.wretch.cc/blog/cwwany」。
输入搜寻之后,Wayback Machine 就会开始搜寻这个网站的过往存档(他们不会把旧的东西砍掉)。不过请不要觉得Wayback Machine 天天都会帮你备份,毕竟网际网路上的资料非常庞大(2012 年Wayback Machine 的资料量达10PB,约一千万GB),因此实际上你搜寻到的结果会如上图这样,只有蓝色圈圈的部份才是有备份到的日期。
注:弯弯的流量很大,所以备份次数也很多。如果你的部落格流量很小 … 那么备份到的次数可能就只有一两次了
接着我们就随便找个日期进去看看 … 就可以看到过去的网页存档啦!在无名被砍站的今天再次看到这个历史画面,还真是令人伤心怀念啊!不过受限于 Wayback Machine 爬虫的能力与网站限制,因此有些当初放在部落格上的照片已经掉光光了,因此这里无法看到完整的弯弯漫画,只能当怀念使用。不过纯文字的内容就不在此限了,因此如果你要找纯文字的网站内容倒是非常实用。
有些日期的爬虫出了些问题,导致网站没备份好变成如上图这样只剩下纯文字内容。不过请不要灰心,由于每一次的备份都是「网站完整备份」,因此你其实可以点一个完整备份的页面(例如上面那个完整的弯弯部落格),然后再从该网页的侧边栏去寻找你要的页面。例如首图的婊科技其实并没有在备份的日期蓝点上,但只要从任何一个蓝点(2010/09/01 以后)进入网页存档,再从该存档找到婊科技的页面就能看到啰~
注:这个网站速度很慢,不过人家毕竟是非营利组织且资料量大到不行
那么到底是什么样的人在营运这样的「慈善」组织呢?
其实 Wayback Machine 的背后组织叫做「The Internet Archive」,是一个于 1996 年建立于旧金山的「历史悠久网路组织」。该组织的目标是保存存在于网路上的所有资料,就像一家图书馆、博物馆一样,搜藏历史上的资讯让需要的使用者、学者调阅。 The Internet Archive 是由知名网路分析公司 Alexa(就是网站排名的那个 Alexa)创办人所建立,在创办之初其实跟 Alexa 是一体两面的组织(Alexa 营利、The Internet Archive 非营利)。
Alexa 的公司名称是向亚历山大图书馆致敬,将网际网路比拟为亚历山大图书馆这间两千多年前号称世界最大的图书馆。不过后来 Alexa 被亚马逊以 2.5 亿美元并购,因此现在 The Internet Archive 就跟 Alexa 除了拥有同一个爸爸之外就没什么关联了。目前 The Internet Archive 可以存取 2001 年以后的资料(受限 Wayback Machine 的技术问题),是研究早期网际网路发展的最佳工具之一。
注:The Internet Archive 现为美国国家图书馆协会 ALA 会员之一,同时被加州指定为官方图书馆。
Follow 我们的Page,每天追踪科技新闻!
想看更多英文版文章吗? 点我进去~
Like!! Really appreciate you sharing this blog post.Really thank you! Keep writing.
Likely I am likely to save your blog post. 🙂
Perfectly composed articles , thankyou for information. 🙂