Wie archiviere ich die gesamte Website?

Um eine einzelne Seite über Wayback Machine zu speichern, gehen Sie zu:

http://web.archive.org/save/https://somewebsite.example.com/

Wie kann ich die Website rekursiv mit Wayback Machine archivieren?

Es gibt einige Projekte wie wayback-machine-downloader , Ich suche jedoch nach einer Funktion, mit der ich die Website rekursiv hochladen kann.

Kommentare

Haben Sie Schwierigkeiten, die von Ihnen verwendete URL-Technik zu verwenden? Erwähnen Sie in Ihrer Frage? Ich ' habe es hunderte Male funktionieren lassen, aber ich ' habe es auch oft versagen lassen Selbst für dieselben Seiten an unterschiedlichen Daten erhalten Sie eine Erfolgsquote von ca. 80%.

Antwort

Seit Wayback Machine bietet keine solche Funktion, ich habe eine Problemumgehung gefunden.

Spiegeln Sie zunächst die Website mit wget, z. B.

wget -m https://example.com/

Verwenden Sie dann curl, um alle Seiten einzeln zu archivieren eine, die Sie heruntergeladen haben.

find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ";"

^{Hinweis: Sie können .html in .php oder bestimmte Dateitypen einschließen.}

Kommentare

Wenn die Site ' keine Erweiterungen verwendet (wie z. B. HTML oder PHP – wie SE eingerichtet ist), wie passen Sie Ihren Befehl an?

Sie kann -name "*.html" in -type f ändern, um alle Dateien einzuschließen.

Wie funktioniert dies mit Abfrageparametern?

' scheint nicht mehr zu funktionieren: Es werden 429 zu viele Anfragen gedruckt.

Die --convert-links Argumente können ebenfalls nützlich sein – erstere machen die Links relativ; Dazu muss die Domain-URL zum " save / https:///domain&quot hinzugefügt werden. Dies hilft jedoch, wenn die Site ' keine absoluten URLs verwendet.

Antwort

Wenn Sie eine kleine Website archivieren möchten, verwaltet das Archivteam den ArchiveBot , ein IRC-Bot, in dem Sie das Crawlen von Websites anfordern können. Das Archivteam sendet die gecrawlten Seiten dann an die Wayback-Maschine des Internetarchivs.

Kommentare

Dies ist unglaublich hilfreich.

Antwort

Die Wayback-Maschine bietet keine Möglichkeit, eine gesamte Site einzureichen, sondern nur eine einzige Seite, wie Sie es getan haben bereits gefunden. Dies wird in einigen Punkten von ihrer Wayback Machine FAQ angesprochen:

Kann ich der Wayback-Maschine Seiten hinzufügen?

Ein https://archive.org/web Sie können die " Seite jetzt speichern " Funktion zum einmaligen Speichern einer bestimmten Seite. Hiermit wird die URL derzeit weder zu zukünftigen Crawls hinzugefügt noch mehr als diese eine Seite gespeichert. Es werden nicht mehrere Seiten gespeichert Seiten, Verzeichnisse oder ganze Sites .

und

Wie kann ich meine Site in aufnehmen? die Wayback-Maschine?

Ein Großteil unserer archivierten Webdaten stammt aus unseren eigenen Crawls oder aus den Crawls von Alexa Internet. Keine Organisation hat eine " jetzt meine Site crawlen! " Übermittlungsprozess . Die Crawls von Internet Archive neigen dazu, Websites zu finden, die gut mit anderen Websites verknüpft sind. Der beste Weg, um sicherzustellen, dass wir Ihre Website finden, besteht darin, sicherzustellen, dass sie in Online-Verzeichnissen enthalten ist und dass ähnliche / verwandte Websites mit Ihnen verknüpft sind.

Kommentare

Dies ist keine Antwort auf die Frage. Nur weil es keinen offiziellen Weg gibt Wenn Sie dies tun, ist es nicht unmöglich, die Aufgabe auszuführen. Tatsächlich sollte es ziemlich einfach sein, ein Skript zu erstellen, das rekursiv Links hinzufügt.

@db, kenorb ' s Antwort scheint genau das zu sein, wonach Sie gefragt haben. Übrigens ist diese Antwort für mich im Moment nützlicher, da ich nur wollte, dass The WaybackMachine erfasst wird Eine Seite für mich.

Antwort

Es ist jetzt möglich, eine Seite und zu archivieren alle verlinkten Seiten . Abhängig von der Einrichtung Ihrer Website kann dies den Trick ausführen.

Ein Zitat aus der Ankündigung :

Sie können jetzt alle“ Outlinks „einer Webseite mit einem einzigen Klick speichern.Durch Aktivieren des Kontrollkästchens „Outlinks speichern“ können Sie die angeforderte Seite sowie alle verknüpften Seiten

Kommentare

Woher ist diese Option verfügbar?

Ich ' habe die Antwort bearbeitet (hoffe, sie ' Ich akzeptiere), dass Seite jetzt speichern eine Anmeldung erfordert, um diese Option zu verwenden (die Ende 2019 hinzugefügt wurde). @kenorb Bitte ändern Sie die akzeptierte Antwort in diese!

Antwort

Diese Artikel auf archive.org schlägt auch einen kostenpflichtigen Dienst vor, der das Crawlen so oft für Sie erledigt, wie Sie möchten:

Melden Sie sich für ein Archive-It-Konto an

Archive-It ist ein Abonnementdienst von Internet Archive, mit dem Sie Ihre eigenen Crawling-Projekte ohne technisches Fachwissen ausführen können. Sagen Sie uns, was und wie oft gecrawlt werden soll. Wir führen das Crawlen aus und speichern die Ergebnisse in der Wayback-Maschine.

Dies ist wahrscheinlich nicht das, wonach Sie suchen, aber für einige Unternehmen kann dieser Service nützlich sein. Ich gehe davon aus, dass es hilfreich ist, archive.org zu finanzieren, das ansonsten kostenlos ist.

Kommentare

Antwort

Kommentare

Antwort

Kommentare

Antwort

Kommentare

Antwort

Kommentare

Antwort

Schreibe einen Kommentar Antworten abbrechen