Om een enkele pagina op te slaan via Wayback Machine kan ik naar:

Hoe kan ik de website recursief archiveren met Wayback Machine ?


Er is een project zoals wayback-machine-downloader , maar ik ben op zoek naar een functie waarmee ik de website recursief kan uploaden.

Opmerkingen

  • Heeft u problemen met het gebruik van de URL-techniek? vermeld in uw vraag? Ik ' heb het honderden keren laten werken, maar ik ' heb het ook vaak laten mislukken. Ik een slagingspercentage van ongeveer 80% behalen, zelfs voor dezelfde paginas op verschillende datums.

Antwoord

Sinds Wayback Machine biedt zon functie niet, ik heb een oplossing gevonden.

  1. Spiegel eerst de website met wget, bijv.

    wget -m https://example.com/ 
  2. Gebruik vervolgens curl om alle paginas een voor een die u “hebt gedownload.

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ";" 

    Opmerking: u kunt .html wijzigen in .php, of neem een bepaald type bestanden op.

Reacties

  • Als de site geen ' extensies gebruikt (zoals html of php – zoals SE is ingesteld), hoe pas je je commando dan aan?
  • Jij kan -name "*.html" veranderen in -type f om alle bestanden op te nemen.
  • Hoe werkt dit met queryparameters?
  • Het ' lijkt niet meer te werken: het drukt 429 te veel verzoeken af
  • Het --convert-links argumenten kunnen ook nuttig zijn – de eerste maakt de links relatief; dit vereist wel het toevoegen van de domein-URL in de " save / https:///domain" maar zal helpen wanneer de site geen ' geen absolute URLs gebruikt.

Antwoord

Als u een kleine website wilt archiveren, onderhoudt het Archive Team het ArchiveBot , een IRC-bot waar u een verzoek kunt indienen om websites te crawlen. Het archiefteam zal de gecrawlde paginas vervolgens naar de Wayback Machine van het Internet Archive sturen.

Opmerkingen

  • Dit is ongelooflijk nuttig.

Answer

De Wayback Machine biedt geen manier om een hele site in te dienen, maar een enkele pagina zoals u al gevonden. Dit wordt in een paar punten besproken van hun Wayback Machine-FAQ :

Kan ik paginas toevoegen aan de Wayback Machine?

Op https://archive.org/web u kunt de " pagina nu opslaan " functie om een specifieke pagina één keer op te slaan. Dit voegt momenteel de URL niet toe aan toekomstige crawls en slaat ook niet meer op dan die ene pagina. Het slaat niet meerdere op paginas, mappen of hele sites .

en

Hoe kan ik mijn site opnemen in the Wayback Machine?

Veel van onze gearchiveerde webgegevens zijn afkomstig van onze eigen crawls of van Alexa Internets crawls. Geen van beide organisaties heeft een " crawl mijn site nu! " inzendingsproces . Met de crawls van internetarchieven worden meestal sites gevonden die goed zijn gelinkt vanaf andere sites. De beste manier om ervoor te zorgen dat we uw website vinden, is door ervoor te zorgen dat deze is opgenomen in online directories en dat soortgelijke / gerelateerde sites naar u linken.

Reacties

  • Dit is geen antwoord op de vraag. Alleen omdat er geen officiële manier is om doe het, de taak is niet onmogelijk om uit te voeren. In feite zou het vrij eenvoudig moeten zijn om een script te maken dat recursief links toevoegt.
  • @db, kenorb ' s antwoord lijkt te zijn waar je om vroeg. Overigens is dit antwoord op dit moment nuttiger voor mij, omdat ik gewoon wilde dat The WaybackMachine vastlegde nu één pagina voor mij.

Antwoord

Het is nu mogelijk om een pagina en alle gelinkte paginas . Afhankelijk van de opzet van uw website kan het de slag gaan.

Een citaat uit de aankondiging :

U kunt nu alle” uitgaande links “van een webpagina met een enkele klik opslaan.Door het aankruisvakje “save outlinks” aan te vinken, kunt u de opgevraagde pagina en ook alle gelinkte paginas opslaan.

Comments

  • Waar is deze optie beschikbaar?
  • Ik ' heb het antwoord bewerkt (hoop dat ze ' accepteer) dat Pagina nu opslaan een Inloggen vereist om deze optie te gebruiken (die eind 2019 werd toegevoegd). @kenorb, overweeg om het geaccepteerde antwoord in dit te veranderen!

Antwoord

Dit artikel op archive.org suggereert ook een betaalde service die het crawlen voor je doet zo vaak als je wilt:

  1. Meld je aan voor een Archive-It-account

Archive-It is een abonnementsservice die wordt aangeboden door Internet Archive waarmee u uw eigen crawlprojecten kunt uitvoeren zonder enige technische expertise. Vertel ons wat we moeten crawlen en hoe vaak we het moeten crawlen, en we voeren de crawl uit en plaatsen de resultaten in de Wayback Machine.

Dit is waarschijnlijk niet wat u zoekt, maar voor sommige bedrijven kan deze service nuttig zijn. Ik neem aan dat het helpt om archive.org te financieren, wat anders gratis is.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *