ウェブサイト全体をアーカイブする方法は？

WaybackMachineを介して1ページを保存するには次の場所に移動できます：

http://web.archive.org/save/https://somewebsite.example.com/

ウェイバックマシンでウェブサイトを再帰的にアーカイブするにはどうすればよいですか？

wayback-machine-downloader などのプロジェクトがあります。しかし、私はウェブサイトを再帰的にアップロードできる機能を探しています。

URLテクニックを使用するのに問題がありますかあなたの質問に言及しますか？私は'何百回も動作しましたが、'も何度も失敗しました。異なる日付の同じページでも、約80％の成功率が得られます。

回答

以降 Wayback Machine はそのような機能を提供していませんが、いくつかの回避策を見つけました。

まず、wget、例
```
wget -m https://example.com/ 
```
次に、curlを使用してすべてのページを1つずつアーカイブしますダウンロードしたもの。
```
find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ";" 
```
^{注：.htmlを}

、または特定の種類のファイルを含めます。

サイトが拡張機能（htmlやphpなど-SEがセットアップされているように）を使用していない場合'コマンドをどのように適応させますか？
-name "*.html"を-type fに変更して、すべてのファイルを含めることができます。
これはクエリパラメータでどのように機能しますか？
'は機能しなくなったようです。429TooManyRequestsを出力します
--convert-links引数も役立つ場合があります。前者はリンクを相対的なものにします。これには、ドメインURLを" save / https:///domain&quotに追加する必要があります。ただし、サイトが絶対URLを使用していない場合に役立ちます'絶対URLを使用します。

回答

小さなウェブサイトをアーカイブしたい場合、アーカイブチームは ArchiveBot 、ウェブサイトのクロールをリクエストできるIRCボット。その後、アーカイブチームは、クロールされたページをインターネットアーカイブのウェイバックマシンに送信します。

これは非常に役立ちます。

回答

Wayback Machineは、サイト全体を送信する方法を提供していません。すでに見つかりました。これは、 Wayback Machine FAQ のいくつかのポイントで触れられています：

ウェイバックマシンにページを追加できますか？

https://archive.org/web "今すぐページを保存"特定のページを1回保存する機能。これは現在、将来のクロールにURLを追加したり、複数のページを保存したりすることはありません。複数のページを保存することはありません。ページ、ディレクトリ、またはサイト全体。

および

自分のサイトをに含めるにはどうすればよいですかウェイバックマシン？

アーカイブされたWebデータの多くは、独自のクロールまたはAlexaInternetのクロールから取得されます。 どちらの組織にも"今すぐサイトをクロールしていません！"送信プロセス。インターネットアーカイブのクロールは、他のサイトから適切にリンクされているサイトを見つける傾向があります。あなたのWebサイトを確実に見つけるための最良の方法は、それがオンラインディレクトリに含まれ、類似/関連サイトがあなたにリンクしていることを確認することです。

コメント

これは質問への回答ではありません。公式な方法がないという理由だけで、そうすれば、タスクを実行することは不可能ではありません。実際、リンクを再帰的に追加するスクリプトを作成するのは非常に簡単です。

@ db、 kenorb 'の回答はあなたが求めていたもののようです。ちなみに、この回答は、WaybackMachineにキャプチャさせたかったので、現時点ではより便利です。今は1ページです。

回答

ページをアーカイブできるようになりましたリンクされているすべてのページ。ウェブサイトの設定に応じて、トリックを実行できます

発表からの引用：

これで、Webページのすべての「アウトリンク」をシングルクリックで保存できます。[アウトリンクを保存]チェックボックスを選択すると、リクエストされたページとすべてのリンクされたページを保存できます

このオプションはどこから利用できますか？
'回答を編集しました（'このオプション（2019年後半に追加された）を使用するには、今すぐページを保存するにはサインインが必要です。 @kenorbは、受け入れられた回答をこれに変更することを検討してください！

回答

この archive.orgの記事は、好きなだけクロールを行う有料サービスも提案しています：

Archive-Itアカウントにサインアップ

Archive-It は、インターネットアーカイブが提供するサブスクリプションサービスであり、技術的な専門知識がなくても独自のクロールプロジェクトを実行できます。クロールの対象と頻度を教えてください。クロールを実行し、結果をWaybackMachineに入れます。

これはおそらくあなたが求めているものではありませんが、一部のビジネスではこのサービスが役立つ場合があります。アーカイブ.orgへの資金提供に役立つと思います。それ以外の場合は無料です。

これは質問への回答ではありません。公式な方法がないという理由だけで、そうすれば、タスクを実行することは不可能ではありません。実際、リンクを再帰的に追加するスクリプトを作成するのは非常に簡単です。

@ db、 kenorb 'の回答はあなたが求めていたもののようです。ちなみに、この回答は、WaybackMachineにキャプチャさせたかったので、現時点ではより便利です。今は1ページです。

このオプションはどこから利用できますか？

'回答を編集しました（'このオプション（2019年後半に追加された）を使用するには、今すぐページを保存するにはサインインが必要です。 @kenorbは、受け入れられた回答をこれに変更することを検討してください！

コメント

回答

コメント

回答

コメント

回答

コメント

回答

コメント

回答

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル