Uložení jedné stránky pomocí Wayback Machine můžu přejít na:

Jak mohu rekurzivně archivovat web pomocí Wayback Machine ?


Existuje nějaký projekt, například wayback-machine-downloader , ale hledám funkci, která mi umožní rekurzivně nahrát web.

Komentáře

  • Máte potíže s používáním techniky URL, kterou zmínit ve své otázce? <

jsem to měl stokrát, ale já ' jsem to také mnohokrát selhal. I získejte přibližně 80% úspěšnost, a to i pro stejné stránky v různá data.

Odpověď

Od Wayback Machine takovou funkci neposkytuje, našel jsem nějaké řešení.

  1. Nejprve zrcadlete web pomocí wget, např.

    wget -m https://example.com/ 
  2. Poté použijte curl k archivaci všech stránek najednou ten, který jste si stáhli.

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ";" 

    Poznámka: Můžete změnit .html na .php nebo zahrnout určitý typ souborů.

Komentáře

  • Pokud web ' t nepoužívá rozšíření (například nastavení html nebo php jako SE), jak přizpůsobíte svůj příkaz?
  • Vy může změnit -name "*.html" na -type f, aby zahrnoval všechny soubory.
  • Jak to funguje s parametry dotazu?
  • Zdá se, že to už ' nefunguje: vytiskne 429 příliš mnoha požadavků
  • --convert-links argumenty mohou být také užitečné – první způsobuje, že odkazy jsou relativní; to vyžaduje přidání adresy URL domény do " save / https:///domain" ale pomůže, když web ' nepoužívá absolutní adresy URL.

Odpovědět

Pokud chcete archivovat malou webovou stránku, archivační tým udržuje ArchiveBot , IRC robot, kde můžete požádat o procházení webových stránek. Tým archivu poté odešle procházené stránky do stroje Wayback Machine v internetovém archivu.

Komentáře

  • To je neuvěřitelně užitečné.

Odpověď

Wayback Machine nenabízí způsob, jak odeslat celý web, pouze jednu stránku tak, jak jste již nalezen. Toho se dotkne několik bodů jejich FAQ Wayback Machine :

Mohu přidat stránky do stroje Wayback Machine?

Zapnuto https://archive.org/web můžete použít " Uložit stránku nyní " umožňuje uložit konkrétní stránku jednou. Tím se aktuálně nepřidá adresa URL k žádným budoucím procházením ani neuloží více než jedna stránka. Neukládá se více stránky, adresáře nebo celé weby .

a

Jak mohu zahrnout svůj web do Wayback Machine?

Velká část našich archivovaných webových dat pochází z našich vlastních procházení nebo procházení Alexa Internet. Ani jedna organizace nyní " můj web teď neprochází! " proces odesílání . Prohledávání Internetového archivu má tendenci vyhledávat stránky, které jsou dobře propojeny s jinými weby. Nejlepší způsob, jak zajistit, abychom našli váš web, je zajistit, aby byl zahrnut v online adresářích a aby podobné / související weby na vás odkazovaly.

Komentáře

  • Toto není odpověď na otázku. Jen proto, že neexistuje žádný oficiální způsob, jak úkol není nemožné splnit. Ve skutečnosti by mělo být docela snadné vybuchnout skript, který rekurzivně přidává odkazy.
  • @db, kenorb ' s odpověď se zdá být tím, o co jste žádali. Mimochodem, tato odpověď je pro mě v tuto chvíli mimochodem užitečnější, protože jsem chtěl, aby The WaybackMachine zachytil teď pro mě jedna stránka.

Odpovědět

Nyní je možné stránku archivovat a všechny odkazované stránky . V závislosti na nastavení vašeho webu to může udělat trik

Nabídka z oznámení :

Nyní můžete jediným kliknutím uložit všechny„ outlinky “webové stránky.Zaškrtnutím políčka „uložit odchozí odkazy“ můžete uložit požadovanou stránku a také všechny propojené stránky

Komentáře

  • Odkud je tato možnost k dispozici?
  • Upravil jsem odpověď oufám, že ' přijmu), že Uložit stránku nyní vyžaduje Přihlásit se , aby bylo možné tuto možnost použít (která byla přidána koncem roku 2019). @kenorb prosím zvažte změnu přijaté odpovědi na tuto!

Odpověď

Toto Článek na archive.org také navrhuje placenou službu, která vám procházení provede tak často, jak se vám líbí:

  1. Zaregistrovat si účet Archive-It

Archivovat It je služba předplatného poskytovaná Internetovým archivem, která vám umožňuje spouštět vaše vlastní projekty procházení bez jakýchkoli technických znalostí. Řekněte nám, co má procházet a jak často to procházet, a my provedeme procházení a vložíme výsledky do Wayback Machine.

To pravděpodobně není to, po čem toužíte, ale pro některé firmy může být tato služba užitečná. Předpokládám, že to pomůže financovat archive.org, který je jinak zdarma.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *