For at gemme en enkelt side via Wayback Machine kan jeg gå til:

Hvordan kan jeg arkivere webstedet rekursivt af Wayback Machine ?


Der er noget projekt som wayback-machine-downloader , men jeg leder efter en funktion, der giver mig mulighed for at uploade webstedet rekursivt.

Kommentarer

  • Har du problemer med at bruge den URL-teknik, du nævner i dit spørgsmål? Jeg ' har fået det til at fungere hundreder af gange, men jeg ' har også fået det til at fejle mange gange også. Jeg få cirka 80% succesrate, selv for de samme sider på forskellige datoer.

Svar

Siden Wayback Machine giver ikke en sådan funktion, jeg har fundet en løsning.

  1. Først skal du spejle hjemmesiden ved hjælp af wget f.eks.

    wget -m https://example.com/ 
  2. Brug derefter curl til at arkivere alle sider en efter en, som du har downloadet.

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ";" 

    Bemærk: Du kan ændre .html til .php, eller inkluder bestemte filtyper.

Kommentarer

  • Hvis webstedet ikke ' ikke bruger udvidelser (såsom html eller php – som SE er opsat), hvordan tilpasser du din kommando?
  • Du kan ændre -name "*.html" til -type f for at inkludere alle filer.
  • Hvordan fungerer dette med forespørgselsparametre?
  • Det virker ' det virker ikke længere: det udskriver 429 for mange anmodninger
  • --convert-links argumenter kan også være nyttige – førstnævnte gør linkene relative; dette kræver tilføjelse af domæne-URL til " gem / https:///domain" men hjælper, når webstedet ikke ' ikke bruger absolutte webadresser.

Svar

Hvis du ønsker at arkivere et lille websted, vedligeholder Archive Team ArchiveBot , en IRC-bot, hvor du kan anmode om at gennemgå websteder. Arkivteamet sender derefter de gennemgribede sider til internetarkivets Wayback-maskine.

Kommentarer

  • Dette er utroligt nyttigt.

Svar

Wayback-maskinen tilbyder ikke en måde at indsende et helt sted på, kun en enkelt side, som du har allerede fundet. Dette berøres i et par punkter af Ofte stillede spørgsmål om Wayback Machine :

Kan jeg føje sider til Wayback-maskinen?

Til https://archive.org/web kan du bruge " Gem side nu " -funktion for at gemme en bestemt side en gang. Dette tilføjer i øjeblikket ikke webadressen til fremtidige gennemgange, og den gemmer ikke mere end den ene side. Den gemmer ikke flere sider, kataloger eller hele websteder .

og

Hvordan kan jeg få mit websted inkluderet i Wayback-maskinen?

Meget af vores arkiverede webdata kommer fra vores egne gennemgange eller fra Alexa Internets gennemgange. Ingen af organisationerne har en " gennemsøg mit websted nu! " indsendelsesproces . Internetarkivs gennemgange har tendens til at finde websteder, der er godt linket fra andre websteder. Den bedste måde at sikre, at vi finder dit websted, er at sørge for, at det er inkluderet i online kataloger, og at lignende / relaterede sider linker til dig.

Kommentarer

  • Dette er ikke et svar på spørgsmålet. Bare fordi der ikke er nogen officiel måde at gør det, opgaven er ikke umulig at udføre. Det skal faktisk være ret nemt at piske et script op, der tilføjer links rekursivt.
  • @db, kenorb ' s svar ser ud til at være det, du bad om. I øvrigt er dette svar mere nyttigt for mig i øjeblikket, da jeg bare ville have WaybackMachine til at fange en side for mig nu.

Svar

Det er nu muligt at arkivere en side og alle de sammenkædede sider . Afhængigt af opsætningen af dit websted kan det gøre tricket

Et citat fra meddelelsen :

Du kan nu gemme alle” outlinks “på en webside med et enkelt klik.Ved at markere afkrydsningsfeltet “gem outlinks” kan du gemme den ønskede side og også alle sammenkædede sider

Kommentarer

  • Hvor er denne mulighed tilgængelig?
  • Jeg ' har redigeret svaret (håber de ' Jeg accepterer), at Gem side nu kræver et log ind for at kunne bruge denne indstilling (som blev tilføjet i slutningen af 2019). @kenorb overvej at ændre det accepterede svar til dette!

Svar

Dette artikel på archive.org foreslår også en betalt tjeneste, der vil gennemgå for dig, så ofte du vil:

  1. Tilmeld dig en Archive-It-konto

Archive-It er en abonnementstjeneste leveret af Internet Archive, der giver dig mulighed for at køre dine egne gennemgangsprojekter uden teknisk ekspertise. Fortæl os, hvad vi skal gennemgå, og hvor ofte vi skal gennemgå det, og vi udfører gennemgangen og lægger resultaterne i Wayback-maskinen.

Dette er sandsynligvis ikke det, du søger, men for nogle virksomheder kan denne service være nyttig. Jeg antager, at det hjælper med at finansiere archive.org, som ellers er gratis.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *