コンテンツにスキップ

英文维基 | 中文维基 | 日文维基 | 草榴社区

Help:ウェイバックマシンの利用

Wikipedia:WEBARCHIVEから転送)

ウェイバックマシンは記事に用いたウェブページの複製をアーカイブすることができるサービスである。ウェブページが変更・移動・削除などされたときに役立ち元の内容への参照が維持される。保存処理は利用者:InternetArchiveBotのためのウェブ・インターフェースを利用して自動で行われる。

編集者は、それぞれの引用箇所においてアーカイブへのリンクを記述することが望ましい。もしくは、それぞれの引用箇所が作成・更新されたときに、少なくとも参照のURLをアーカイブすること。新たにウィキペディアのページに追加されたURLは、他のページで使われていない場合、ボットによって自動でアーカイブされる。

https://web.archive.org のウェブフォームを開き、任意のURLを"ウェイバックマシン"の検索窓に入力し、BROWSE HISTORYを選択すると、次の画面は:

  • 最新のアーカイブにリダイレクトされる
  • Save this url in the Wayback Machineを提案するリンクを伴ったボックスがページの下部に表示される
  • 当該ページのアーカイブが作成された日付によってまとめられたカレンダーが表示される
  • 当該ページがアーカイブ不可能である理由を述べたエラーメッセージが表示される

{{cite web}}や同様のテンプレートで利用するときのコードを簡単に示す:

<ref>{{cite ... <!--EXISTING REFERENCE--> |archive-url=https://web.archive.org/web/<date>/http://www.originalurl.com |archive-date=<date> |url-status=dead}}</ref>


URLのフォーマット

[編集]

たいていの場合ウェイバックマシンへのリンクは、先頭がhttps://web.archive.org/web/であり、引き続いてアスタリスク一つ又は14桁で表された日時があり、そしてスラッシュ一つ、最後に任意のウェブページのURLとなる。

最初の保存要求

[編集]

以下の例はウィキペディアのメインページの保存を要求するものである。このような保存要求は通常、要求されたページの全てのアーカイブへとリンクしているカレンダーを返す。

上記のURLフォーマットを用いて、リクエストしたページがどの程度アーカイブされているかを知ることができる。強調表示された日付をクリックすると、その特定のアーカイブを選択することができる。

日付符号を14桁より少なくして末尾に*を続けることで、リクエストの範囲を狭めることができる。(以下の例は、2005年12月のスナップショットのみを表示する)

もし目的のウェブページが未だアーカイブされていないとき、Save this url in the Wayback Machineを利用者に提案するリンクを伴うボックスがページ下部にあらわれる。

上記のURLでは、まずリクエストされたウェブ・ページの現在の状態が表示され、そしてアーカイブを試みる保存処理が始まる。もし成功すると、処理の終了と同時にアーカイブが利用可能になる。

ページによっては、ウェイバックマシンがエラーメッセージを返し、要求されたページがアーカイブ不可能な理由が表示されることがある。そのような場合は、WebCiteのような他のアーカイブサイトを使用すること。

それぞれのアーカイブ

[編集]

目的のウェブページがアーカイブされると、それぞれの日時のアーカイブは下に示されるフォーマットによって個別に閲覧要求をすることができる。

次の例は、UTCタイムゾーンで2002年9月30日午後12:35:25時点における、ウィキペディアのトップページのアーカイブへのリンクである。

上のフォーマットを用いることで、それぞれのアーカイブに直接リンクすることができる。

日時の直後にアスタリスクを追記することや、日時の代わりにアスタリスクを記入することで、簡単に全てのアーカイブをカレンダー表示することができる。

下記のフラグを日時の欄に記入することでアーカイブの表示形式を変更することができる[1][2]:

  • id_ アイデンティティ - オリジナルのページからなにも変換せず、アーカイブされた時の状態を返す。
  • js_ JavaScript - JavaScriptにマークアップされたドキュメントを返す。
  • cs_ CSS - CSSにマークアップされたドキュメントを返す。
  • im_ イメージ - ドキュメントをイメージとして返す。
  • if_ or fw_ Iframe - 通常の形式でドキュメントを返す、ただしナビゲーション・ツールバーを伴わない。

ページの画像がアーカイブされた状況によっては、ページの描画が安定しない場合がある。したがって、ウィキペディアに記述する前にフラグによる結果を確認することが推奨される。日時のフォーマットはYYYYMMDDhhmmssであり、その直後に上記のフラグが配置される。

ナビゲーション・ツールバーを取り除く

[編集]

通常アーカイブされたウェブページを表示するとき、アーカイブされたときの見た目にできるだけ近づけるために、ウェイバックマシンはCSSや画像の参照など内部のコードの一部を書き換える。基本的にはナビゲーションツールバーも追加される。このツールバーは、ページそのもののアーカイブとしては望ましくない。

id_で表現される"identity"フラグは、以前はツールバーを含まず、アーカイブされたときと寸分違わないページを返すように設定されていた。しかし残念なことに、CSSや画像の参照がアーカイブのものへと修正されないため、多くのページはこのフラグを用いると不十分な描写になってしまう。

より良い方法はif_'"iframe"'フラグである。これは参照を修正し、かつツールバーを除外するため、可能な限りオリジナルのウェブページと同様に描画される。

たとえば、以下のものはid_identityフラグのアーカイブである。これはウェイバックマシンへの標準のリンクであり、ナビゲーションツールバーを伴う。

以下のものはアーカイブされた同じページのうち、id_ identityフラグが付与されたものである。ツールバーを含まないが、参照が壊れているためうまく描画されない。

最後に、以下のものが同じページでif_ iframeフラグを用いたものである。ツールバーを含まず、完璧に描画される。

アーカイブへのリンクには、オリジナルのウェブページの最も忠実な再現となるif_iframeフラグを利用すること!

最新のアーカイブ

[編集]

次のリンク例は、最新のアーカイブへのリンクである。

上記のフォーマットは推奨されない。このリクエストは、最新のアーカイブはを示す14桁のタイムスタンプを含む長いURLにリダイレクトされてしまい、特定のバージョンへの直接的なリンクという目的が達成できない。

同じように、1000を記入することで最も古いアーカイブにリンクされる。

参考:高度なURL指定のヒント – Internet Archive

制約

[編集]

2013年より以前は、アーカイブが利用可能になるためには数週間から数ヶ月程度かかっていた。現在では、ウェブページのアーカイブの要求はすぐに実行され、結果は数分で利用可能になる。

2017年4月以前は、[3]インターネット・アーカイブはRobots Exclusion Standardを尊重していた。アクセスを許可しないサイトをアーカイブせず、過去のバージョンへのアクセスも取り除いている。

たとえば、The New York Timesは、以前は https://www.nytimes.com/robots.txt において以下のような robots.txt を提示していた:

User-agent: *
Disallow: /aponline/
Disallow: /archives/
Disallow: /reuters/

したがって、The New York Timesのウェブサイトにおいてそれらのフォルダ内にあるURLへのリクエストは拒否される。

JavaScript ブックマークレット

[編集]

ブックマークレットとは、JavaScriptを用いて特定の動作をする、ブックマークのようなブラウザに存在するボタンである。

リンク切れしたページを閲覧する

[編集]

リンク切れであるウェブページにおりウェイバックマシンに保存されているアーカイブにアクセスするためにブックマークレットを利用する場合、以下のコードをコピーしてブラウザのブックマークツールバーに入力し、その後ウェイバックなど適当な名前をつけること(たとえば Wayback)

javascript:void(window.open('https://web.archive.org/web/*/'+location.href.replace(/\/$/, '')));

そして、リンク切れしたページにいるときに、ブックマークレットをクリックすることでウェイバックマシンにおける当該ページのアーカイブに自動で転送される。

直前のコードは全てのユーザ環境において動作するわけではない。その場合は以下のブックマークレットを試すこと:

javascript:location.href='https://web.archive.org/web/*/'+document.location.href.replace(/\/$/, '');

開いているページを保存する

[編集]

訪れているページを任意にアーカイブ可能にするブックマークレットは、ブラウザのツールバーに以下のコードを保存し、ウェイバック・保存のような名前をつけるとよい(たとえば Wayback Save):

javascript:void(window.open('https://web.archive.org/save/'+location.href));

ブラウザのアドオンやアプリ

[編集]

インターネットアーカイブはブラウザアドオンを提供しており、開いているページに関してウェイバック・マシーンへの簡単なアクセスを可能にし、ウェイバック・マシーンにページのコピーを保存する機能もある。現在のバージョンのアドオンはGoogle ChromeMozilla FirefoxSafariにおいて利用可能である。

さらに、iOSAndroidのアプリなどもモバイルデバイスで利用可能である。

ウェブアーカイブのテンプレートを利用する

[編集]

{{webarchive}}はウェイバックマシンや他のアーカイブサービスにごく簡単なリンクを貼る方法である。著者や日付などの書誌情報を含まないため一般的に引用としては使われないが、それ以外のリンクとしてならば便利である。|url=|title=|date=などのパラメーターを用いて、URL、タイトル、アーカイブ日時を指定する。たとえば:

  • {{webarchive |url=https://web.archive.org/web/20010727112808/http://www.wikipedia.org/ |date=July 27, 2001 |title=Wikipedia }}
    Wikipedia at the Wayback Machine (archived July 27, 2001)

日時を含まない場合:

  • {{webarchive |url=https://web.archive.org/web/*/http://www.wikipedia.org/ |date=* |title=Wikipedia }}
    Wikipedia at the Wayback Machine (archive index)

追加のオプションは{{webarchive}}の文書を参照のこと

サイト・テンプレートを用いる

[編集]

{{citation}}とすべての出典表記形式1テンプレートでは|archive-url=パラメータを利用できる(|archive-date=も必要になる)。その他の引用テンプレートでも|archive-url=を利用できる、それぞれの説明を参照のこと。

  • {{citation |url=https://www.wikipedia.org/ |title=Wikipedia Main Page |archive-url=https://web.archive.org/web/20020930123525/https://www.wikipedia.org/ |archive-date=2002-09-30 |access-date=2005-07-06 }}
    Wikipedia Main Page”. 2002年9月30日時点のオリジナルよりアーカイブ。2005年7月6日閲覧。
  • 作成日を記入するときは|access-date=ではなく|date=を用いること。
  • 元のURLが未だ有効なアーカイブURLを引用に追加するときには、|url-status=liveパラメータが便利である。|url-status=liveを用いることで、脚注のタイトルをクリックすることとでオリジナルの有効なURLを呼び出すことができ、"アーカイブ"をクリックすることでアーカイブを呼び出すことができる。そうでない場合はタイトルはアーカイブを呼び出し、"オリジナル"は再び有効にならない限りリンク切れした元のURLを呼び出す:
    {{citation |url=https://www.wikipedia.org/ |title=Wikipedia Main Page |archive-url=https://web.archive.org/web/20020930123525/https://www.wikipedia.org/ |archive-date=2002-09-30 |access-date=2005-07-06 |url-status=live }}
    Wikipedia Main Page”. 2002年9月30日時点のオリジナルよりアーカイブ2005年7月6日閲覧。
    オリジナルのURLが有効でない場合は単純に、|url-status=deadに変更するか、パラメータを削除するかという選択肢がある。

その他

[編集]

説明

[編集]

ツール

[編集]

参照

[編集]
  1. ^ Wayback Administrator Manual”. Internet Archive. 2014年1月20日時点のオリジナルよりアーカイブ2022年6月4日閲覧。
  2. ^ How can I view a page without the Wayback code in it?”. Internet Archive. 2013年8月6日時点のオリジナルよりアーカイブ。2022年6月4日閲覧。
  3. ^ “Internet Archive will ignore robots.txt files to keep historical record accurate” (英語). Digital Trends. (2017年4月24日). https://www.digitaltrends.com/computing/internet-archive-robots-txt/#ixzz4gQYOqpUi 2018年5月20日閲覧。