För att spara en enda sida via Wayback Machine kan jag gå till:

Hur arkiverar jag webbplatsen rekursivt av Wayback Machine ?


Det finns något projekt som wayback-machine-downloader , men jag letar efter en funktion som tillåter mig att ladda upp webbplatsen rekursivt.

Kommentarer

  • Har du några problem med att använda URL-tekniken du nämner i din fråga? Jag ' har haft det fungerat hundratals gånger, men jag ' har också haft att det misslyckades många gånger också. få ungefär 80% framgång, även för samma sidor på olika datum.

Svar

Eftersom Wayback Machine ger inte en sådan funktion, jag har hittat en lösning.

  1. Spegla först webbplatsen med wget, t.ex.

    wget -m https://example.com/ 
  2. Använd sedan curl för att arkivera alla sidor en efter en som du har laddat ner.

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ";" 

    Obs! Du kan ändra .html till .php, eller inkludera vissa typer av filer.

Kommentarer

  • Om webbplatsen inte ' inte använder tillägg (till exempel html eller php – som SE är inställt), hur anpassar du ditt kommando?
  • Du kan ändra -name "*.html" till -type f för att inkludera alla filer.
  • Hur fungerar detta med frågeparametrar?
  • Det verkar inte ' det fungerar inte längre: det skrivs ut 429 för många förfrågningar
  • --convert-links argument kan också vara användbara – förstnämnda gör länkarna relativa; detta kräver att domänens URL läggs till i " spara / https:///domain" men hjälper när webbplatsen inte ' använder absoluta webbadresser.

Svar

Om du vill arkivera en liten webbplats, Archive Team underhåller ArchiveBot , en IRC-bot där du kan begära att genomsöka webbplatser. Arkivteamet skickar sedan de genomsökta sidorna till Internetarkivets Wayback Machine.

Kommentarer

  • Det här är oerhört hjälpsamt.

Svar

Wayback Machine erbjuder inte ett sätt att skicka in en hel webbplats, bara en enda sida när du har redan hittat. Detta berörs i ett par punkter i deras FAQ för Wayback Machine :

Kan jag lägga till sidor i Wayback Machine?

https://archive.org/web kan du använda " Spara sidan nu " -funktion för att spara en viss sida en gång. Detta lägger för närvarande inte till webbadressen för framtida genomsökningar och sparar inte mer än den ena sidan. Det sparar inte flera sidor, kataloger eller hela webbplatser .

och

Hur kan jag få min webbplats inkluderad i Wayback Machine?

Mycket av våra arkiverade webbdata kommer från våra egna genomsökningar eller från Alexa Internets genomsökningar. Ingen organisation har en " genomsök min webbplats nu! " inlämningsprocess . Internetarkivs genomsökningar tenderar att hitta webbplatser som är väl länkade från andra webbplatser. Det bästa sättet att se till att vi hittar din webbplats är att se till att den ingår i onlinekataloger och att liknande / relaterade webbplatser länkar till dig.

Kommentarer

  • Detta är inte ett svar på frågan. Bara för att det inte finns något officiellt sätt att gör det, uppgiften är inte omöjlig att utföra. Det borde vara ganska enkelt att piska upp ett skript som lägger till länkar rekursivt.
  • @db, kenorb ' s svar verkar vara vad du frågade efter. För övrigt är det här svaret mer användbart för mig just nu, eftersom jag bara ville att WaybackMachine skulle fånga en sida för mig nu.

Svar

Det är nu möjligt att arkivera en sida och alla länkade sidor . Beroende på installationen av din webbplats kan det göra tricket

Ett citat från tillkännagivandet :

Du kan nu spara alla” utlänkar ”på en webbsida med ett enda klick.Genom att markera kryssrutan ”spara utlänkar” kan du spara den begärda sidan och även alla länkade sidor

Kommentarer

  • Varifrån finns det här alternativet?
  • Jag ' har redigerat svaret (hoppas att de ' Jag accepterar) att Spara sidan nu kräver en inloggning för att kunna använda detta alternativ (som lades till i slutet av 2019). @kenorb överväga att ändra det accepterade svaret till det här!

Svar

Detta artikel på archive.org föreslår också en betald tjänst som gör genomsökningen åt dig så ofta du vill:

  1. Registrera dig för ett Archive-It-konto

Archive-It är en prenumerationstjänst som tillhandahålls av Internet Archive som låter dig köra dina egna genomsökningsprojekt utan teknisk expertis. Berätta för oss vad vi ska genomsöka och hur ofta vi ska genomsöka det, och vi utför genomsökningen och lägger resultaten i Wayback Machine. p>

Detta är förmodligen inte vad du letar efter, men för vissa företag kan den här tjänsten vara användbar. Jag antar att det hjälper till att finansiera archive.org, som annars är gratis.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *