For å lagre en enkelt side via Wayback Machine kan jeg gå til:

Hvordan kan jeg arkivere nettstedet rekursivt av Wayback Machine ?


Det er noe prosjekt som wayback-machine-downloader , men jeg ser etter en funksjon som lar meg laste opp nettstedet rekursivt.

Kommentarer

  • Har du problemer med å bruke URL-teknikken du omtale i spørsmålet ditt? Jeg ' har hatt det til å fungere hundrevis av ganger, men jeg ' har også hatt det mislykkes mange ganger også. Jeg få omtrent 80% suksessrate, selv for de samme sidene på forskjellige datoer.

Svar

Siden Wayback Machine gir ikke en slik funksjon, jeg har funnet en løsning.

  1. Først må du speile nettstedet ved hjelp av wget, f.eks.

    wget -m https://example.com/ 
  2. Bruk deretter curl for å arkivere alle sidene en etter en du har lastet ned.

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ";" 

    Merk: Du kan endre .html til .php, eller inkluder visse typer filer.

Kommentarer

  • Hvis nettstedet ikke ' ikke bruker utvidelser (for eksempel html eller php – som SE er oppsett), hvordan tilpasser du kommandoen din?
  • Du kan endre -name "*.html" til -type f for å inkludere alle filer.
  • Hvordan fungerer dette med spørreparametere?
  • Det virker ikke ': det skriver ut 429 for mange forespørsler
  • --convert-links argumenter kan også være nyttige – førstnevnte gjør lenkene relative; dette krever at du legger til domenenettadressen i " lagre / https:///domain" men vil hjelpe når nettstedet ikke ' ikke bruker absolutte nettadresser.

Svar

Hvis du ønsker å arkivere et lite nettsted, vedlikeholder Archive Team ArchiveBot , en IRC-bot der du kan be om å få gjennomgå nettsteder. Arkivteamet vil da sende de gjennomsøkte sidene til Internett-arkivets Wayback Machine.

Kommentarer

  • Dette er utrolig nyttig.

Svar

Wayback Machine tilbyr ikke en måte å sende inn et helt nettsted, bare en enkelt side når du har allerede funnet. Dette blir berørt på et par punkter av FAQ om Wayback Machine :

Kan jeg legge til sider i Wayback-maskinen?

https://archive.org/web kan du bruke " Lagre siden nå " -funksjon for å lagre en bestemt side en gang. Dette legger foreløpig ikke til nettadressen til fremtidige gjennomsøk, og den sparer heller ikke mer enn den ene siden. Den lagrer ikke flere sider, kataloger eller hele nettsteder .

og

Hvordan kan jeg få nettstedet mitt inkludert i Wayback Machine?

Mye av de arkiverte nettdataene våre kommer fra våre egne gjennomganger eller fra Alexa Internet sine gjennomsøk. Ingen av organisasjonene har en " gjennomsøke siden min nå! " innsendingsprosess . Gjennomgang av Internett-arkiv har en tendens til å finne nettsteder som er godt koblet fra andre nettsteder. Den beste måten å sikre at vi finner nettstedet ditt er å sørge for at det er inkludert i online kataloger og at lignende / relaterte nettsteder lenker til deg.

Kommentarer

  • Dette er ikke et svar på spørsmålet. Bare fordi det ikke er noen offisiell måte å gjør det, oppgaven er ikke umulig å utføre. Det skal faktisk være ganske enkelt å piske opp et skript som legger til lenker rekursivt.
  • @db, kenorb ' s svar ser ut til å være det du ba om. For øvrig er dette svaret mer nyttig for meg for øyeblikket, da jeg bare ville at WaybackMachine skulle fange en side for meg nå.

Svar

Det er nå mulig å arkivere en side og alle de lenkede sidene . Avhengig av oppsettet av nettstedet ditt, kan det gjøre susen

Et sitat fra kunngjøringen :

Du kan nå lagre alle» utkoblinger «på en webside med et enkelt klikk.Ved å merke av for «lagre utkoblinger» kan du lagre den forespurte siden og også alle koblede sider

Kommentarer

  • Hvor er dette alternativet tilgjengelig?
  • Jeg ' har redigert svaret (håper de ' Jeg godtar) at Lagre siden nå krever en pålogging for å kunne bruke dette alternativet (som ble lagt tilbake i slutten av 2019). @kenorb kan du vurdere å endre det aksepterte svaret til dette!

Svar

Dette artikkel på archive.org foreslår også en betalt tjeneste som vil gjennomsøke for deg så ofte du vil:

  1. Registrer deg for en Archive-It-konto

Archive-It er en abonnementstjeneste levert av Internet Archive som lar deg kjøre dine egne gjennomsøkingsprosjekter uten teknisk ekspertise. Fortell oss hva vi skal gjennomsøke og hvor ofte vi skal gjennomsøke det, og vi utfører gjennomgangen og legger resultatene i Wayback Machine.

Dette er sannsynligvis ikke det du er ute etter, men for noen virksomheter kan denne tjenesten være nyttig. Jeg antar at det hjelper å finansiere archive.org, som ellers er gratis.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *