「ウェブアーカイブ」の版間の差分

削除された内容追加された内容

インライン

2017年9月4日 (月) 15:50時点における版

ウェブアーカイブ (web archive) は、WWW（web、ウェブ）全体もしくはその一部を収集し、そのコレクションを後世の研究者、歴史家、一般大衆のために保存して、アーカイブとしたもの。

ウェブのサイズは膨大であるため、ウェブアーカイブではクローラを使って自動収集を行う。最大規模のウェブアーカイブ機関は、ウェブ全体のアーカイブ作成を自動・手動の両面で行っている「インターネットアーカイブ」(Internet Archive) である。

各国の国立図書館もまた文化的に重要なウェブコンテンツを保存しようとしており、フランスでは2001年にウェブページのウェブアーカイブ化を義務化する法律が成立した^[1]。2003年7月には、世界各国の国立図書館等が連携してウェブアーカイブの技術開発を行うための国際コンソーシアムとして、国際インターネット保存コンソーシアム (IIPC) が設立されている^[2]。

2004年には、日本でもこの方面のアーカイブを検討するという方向が小泉内閣で打ち出され、国立国会図書館による事業が始まった。

Webの収集

Webアーカイブはクローラを使ってウェブページの収集プロセスを自動化している。クローラはWebの一般利用者がブラウザを使ってWebコンテンツを閲覧するのと同じようなやり方でWebページを辿っていく。Heritrixクローラは有名なツールの一つであり、アーカイブ的なクロールを行うのに用いられている。

Webアーカイブで収集されるのは、あらゆる種類のWebコンテンツである。これにはHTMLのウェブページ、スタイルシート、JavaScript、画像、ビデオなどが含まれる。さらに収集したリソースに関するメタデータも蓄積する。例えば、アクセス日時、MIMEタイプ、サイズなど。これらのメタデータにより、アーカイブされているコレクションの信頼性と同一性を確保できる。

アーカイビングの難しさと限界

Webアーカイブは収集を主としてクロールに頼っているため、Webクローリングの難しさに影響を受ける。

ロボット排除の取り決め（robots exclusion protocol）によりクローラはウェブサイトの一部へのアクセスが拒否されることがある。
ウェブサイトの大部分がDeep Webとして隠れた領域となっていることもある。例えば、フォームの先にあるはずの結果ページなどは、クローラはリンクを辿って行き着くことができないためDeep Webの領域となってしまう。
ウェブサーバーの中にはクローラに対して通常のWebブラウザに対するのとは別のページ内容を返すことがある。これはサーチエンジンを騙してサイトへのトラフィックを増やそうとする際に行われる手法の一つでもある。
クローラ・トラップが、クローラにページを無限に延々とダウンロードさせることがある（例えば、カレンダーなど）。このためクローラは通常、動的ページのダウンロード数の上限を設定されている。

Webは非常に巨大なため、その大部分を収集するには相当な計算機資源を必要とする。また、Web自体の内容の変化も速いため、サイト全体をクローラが収集する前にその内容が変わってしまうことさえある。

Webアーカイブが対処しなければならないのは技術的な側面だけではなく、知的財産権といった法的、社会的側面もある。Peter Lyman (2002)は「Webは一般にパブリックドメインのソースのように見られているが、これは著作権付きの情報である。従って、アーキビストはWebをコピーする法的権利を保持していない。」と述べている。「インターネット・アーカイブ」のようにアーカイブしたコンテンツを一般に公開しているアーカイブの中には、コンテンツの所有者が一般公開を希望しない場合には、アーカイブしたコンテンツを公開から外したり、削除できるようにしているところもある。また、特定の場所からのみアクセス可能にしたり、特定の決められた利用法でのみアクセス可能にしたりしているアーカイブもある。

手動によるアーカイビング

「インターネット・アーカイブ」のようなアーカイブサイトは、ロボット（クローラ）が自動でサイトを片っ端からかき集めている一方、利用者が手動で任意のサイトを保存する機能もある。手動保存はURLを指定することで行われる。

手動保存専用のアーカイブサイトとしては、「ウェブ魚拓」、「ひよっ Hiyo.jp」がある（保存するページの言語は関係ない）。海外での例としては「WebCite」、「archive.is（旧称 archive.today）」がある。

参考文献

Day, M. (2003). “Preserving the Fabric of Our Lives: A Survey of Web Preservation Initiatives”. Research and Advanced Technology for Digital Libraries: Proceedings of the 7th European Conference (ECDL): 461-472.
Lyman, P. (2002). “Archiving the World Wide Web”. Building a National Strategy for Preservation: Issues in Digital Media Archiving.

脚注

[脚注の使い方]

^ コーネル大学図書館 (2013年). “Digital Preservation and Technology Timeline”. Digital Preservation Management. 2016年3月6日閲覧。
^ “International Internet Preservation Consortium (IIPC)”. 国立国会図書館インターネット資料収集保存事業（WARP）. 2016年9月14日閲覧。

外部リンク

[CornellTimeline-1] コーネル大学図書館 (2013年). “Digital Preservation and Technology Timeline”. Digital Preservation Management. 2016年3月6日閲覧。

[2] “International Internet Preservation Consortium (IIPC)”. 国立国会図書館インターネット資料収集保存事業（WARP）. 2016年9月14日閲覧。

[1]

[2]

@@ 2行目: / 2行目: @@
 '''ウェブアーカイブ''' (web archive) は、[[World Wide Web|WWW]]（web、ウェブ）全体もしくはその一部を[[収集]]し、そのコレクションを後世の[[研究者]]、[[歴史家]]、一般[[大衆]]のために[[保存]]して、[[アーカイブ]]としたもの。
-ウェブのサイズは膨大であるため、ウェブアーカイブでは[[クローラ]]を使って自動収集を行う。最大規模のウェブアーカイブ機関は、ウェブ全体のアーカイブ作成を[[自動]]・[[手動]]の両面で行っている「[[インターネット・アーカイブ]]」(Internet Archive) である。
+ウェブのサイズは膨大であるため、ウェブアーカイブでは[[クローラ]]を使って自動収集を行う。最大規模のウェブアーカイブ機関は、ウェブ全体のアーカイブ作成を[[自動]]・[[手動]]の両面で行っている「[[インターネットアーカイブ]]」(Internet Archive) である。
 各国の[[国立図書館]]もまた[[文化]]的に重要なウェブコンテンツを保存しようとしており、[[フランス]]では2001年に[[ウェブページ]]のウェブアーカイブ化を義務化する法律が成立した<ref name=CornellTimeline>{{cite web |author=[[コーネル大学]]図書館 |location=USA |title=Digital Preservation and Technology Timeline |work= Digital Preservation Management |url=http://www.dpworkshop.org/dpm-eng/timeline/viewall.html |year=2013 |accessdate=2016年3月6日}}</ref>。2003年7月には、世界各国の国立図書館等が連携してウェブアーカイブの技術開発を行うための国際[[コンソーシアム]]として、[[国際インターネット保存コンソーシアム]] (IIPC) が設立されている<ref>{{cite web|title=International Internet Preservation Consortium (IIPC)|publisher=[http://warp.da.ndl.go.jp/ 国立国会図書館インターネット資料収集保存事業（WARP）]|url=http://warp.da.ndl.go.jp/contents/reccommend/world_wa/world_wa01.html |accessdate=2016-09-14}}</ref>。