Voit tallentaa yhden sivun Wayback Machine -palvelun kautta siirtymällä osoitteeseen:

Kuinka voin arkistoida verkkosivuston rekursiivisesti Wayback Machine ?


On joitain projekteja, kuten wayback-machine-downloader , mutta etsin ominaisuutta, jonka avulla voin ladata verkkosivuston rekursiivisesti.

Kommentit

  • Onko sinulla vaikeuksia käyttää URL-tekniikkaa mainitse kysymyksessäsi? Minulla ' ollut se toiminut satoja kertoja, mutta minäkin ' olen myös epäonnistunut monta kertaa. saat noin 80%: n onnistumisprosentin, jopa samoille sivuille eri päivinä.

Vastaa

Koska Wayback Machine ei tarjoa tällaista ominaisuutta, olen löytänyt kiertotavan.

  1. Peilaa ensin verkkosivusto käyttämällä wget, esim.

    wget -m https://example.com/ 
  2. Käytä sitten curl kaikkien sivujen arkistointiin yksitellen lataamasi.

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ";" 

    Huomaa: Voit muuttaa .html muotoon .php tai sisällytä tietyntyyppisiä tiedostoja.

Kommentit

  • Jos sivusto ei ' käytä laajennuksia (kuten html tai php – kuten SE on määritetty), miten mukautat komentoasi?
  • voi muuttaa -name "*.html" muotoon -type f sisällyttämään kaikki tiedostot.
  • Kuinka tämä toimii kyselyparametrien kanssa?
  • Se ei näytä toimivan enää: se tulostaa 429 liian monta pyyntöä
  • --convert-links argumenteista voi olla hyötyä – edellinen tekee linkeistä suhteellisia; tämä edellyttää verkkotunnuksen URL-osoitteen lisäämistä " save / https:///domain" mutta auttaa, kun sivusto ei ' käytä absoluuttisia URL-osoitteita.

Vastaa

Jos haluat arkistoida pienen verkkosivuston, -arkistotiimi ylläpitää ArchiveBot , IRC-botti, jossa voit pyytää indeksoimaan verkkosivustoja. Arkistotiimi lähettää sitten indeksoidut sivut Internet-arkiston Wayback Machine -laitteeseen.

Kommentit

  • Tämä on uskomattoman hyödyllistä.

vastaus

Wayback Machine ei tarjoa tapaa lähettää koko sivusto, vain yksi sivu, kun olet jo löydetty. Tätä käsitellään muutamassa kohdassa heidän Wayback Machine-usein kysytyissä kysymyksissään :

Voinko lisätä sivuja Wayback Machine -laitteeseen?

Käytössä https://archive.org/web voit käyttää " Tallenna sivu nyt " ominaisuus tietyn sivun tallentamiseksi kerralla. Tämä ei tällä hetkellä lisää URL-osoitetta tuleviin indeksointeihin eikä tallenna enempää kuin yksi sivu. Se ei tallenna useita sivut, hakemistot tai kokonaiset sivustot .

ja

Kuinka saan sivustoni sisällytettyä Wayback Machine?

Suuri osa arkistoiduista verkkotiedoistamme tulee omista indeksoinneistamme tai Alexa Internetin indeksoinneista. Kummallakaan organisaatiolla ei ole " indeksointisivustoani nyt! " lähetysprosessi . Internet-arkiston indeksoinnit löytävät yleensä sivustoja, jotka ovat hyvin linkitetty muihin sivustoihin. Paras tapa varmistaa, että löydämme verkkosivustosi, on varmistaa, että se sisältyy verkkohakemistoihin ja että vastaavat / aiheeseen liittyvät sivustot viittaavat sinuun.

Kommentit

  • Tämä ei ole vastaus kysymykseen. Vain siksi, että ei ole virallista tapaa tee se, tehtävän suorittaminen ei ole mahdotonta. Itse asiassa linkkien rekursiivisesti lisäämisen komentosarjan on oltava melko helppoa.
  • @db, kenorb ' vastaus näyttää olevan sitä mitä pyysit. Muuten, tämä vastaus on minulle hyödyllisempi tällä hetkellä, koska halusin vain The WaybackMachinen kaappaavan yksi sivu minulle nyt.

Vastaa

Sivun arkistointi on nyt mahdollista ja kaikki linkitetyt sivut . Verkkosivustosi asetuksista riippuen se voi tehdä tempun.

Lainaus ilmoituksesta :

Voit nyt tallentaa kaikki verkkosivun” linkit ”yhdellä napsautuksella.Valitsemalla ”Tallenna outlinks” -valintaruudun voit tallentaa pyydetyn sivun ja kaikki linkitetyt sivut

Kommentit

  • Mistä tämä vaihtoehto on käytettävissä?
  • Olen ' muokannut vastausta (toivottavasti he ' Hyväksyn), että Tallenna sivu nyt vaatii Kirjaudu sisään käyttääksesi tätä vaihtoehtoa (joka lisättiin takaisin vuoden 2019 lopulla). @kenorb harkitse hyväksytyn vastauksen muuttamista tähän!

Vastaa

Tämä artikkeli archive.org -sivustolla ehdottaa myös maksullista palvelua, joka suorittaa indeksoinnin puolestasi niin usein kuin haluat:

  1. Hanki Arkistoi-It-tili

Arkistoi-It on Internet-arkiston tarjoama tilauspalvelu, jonka avulla voit suorittaa omia indeksointiprojektejasi ilman teknistä asiantuntemusta. Kerro meille, mitä indeksoidaan ja kuinka usein se indeksoidaan, ja me suoritamme indeksoinnin ja laitamme tulokset Wayback-koneeseen.

Tätä et luultavasti tarkoita, mutta joillekin yrityksille tämä palvelu voi olla hyödyllinen. Oletan, että se auttaa rahoittamaan muuten ilmaisen archive.org-sivuston.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *