Cum se arhivează întregul site?

Pentru a salva o singură pagină prin Wayback Machine pot accesa:

http://web.archive.org/save/https://somewebsite.example.com/

Cum pot arhiva site-ul web recursiv prin Wayback Machine ?

Există unele proiecte precum wayback-machine-downloader , dar „caut o funcție care să îmi permită încărcarea site-ului recursiv.

Comentarii

Aveți dificultăți în utilizarea tehnicii URL menționez în întrebarea dvs.? Am ' am făcut să funcționeze de sute de ori, dar ' am avut și eu eșec de multe ori. obțineți o rată de succes de aproximativ 80%, chiar și pentru aceleași pagini la date diferite.

Răspuns

De la Wayback Machine nu oferă o astfel de caracteristică, am găsit o soluție.

Mai întâi, reflectați site-ul web utilizând wget, de ex.
```
wget -m https://example.com/ 
```
Apoi utilizați curl pentru a arhiva toate paginile una de una pe care ați „descărcat-o.
```
find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ";" 
```
^{Notă: Puteți schimba .html în .php sau includeți un anumit tip de fișiere.}

Comentarii

Dacă site-ul nu ' nu folosește extensii (cum ar fi html sau php – cum ar fi configurarea SE), cum vă adaptați comanda?
poate schimba -name "*.html" în -type f pentru a include toate fișierele.
Cum funcționează acest lucru cu parametrii de interogare?
Nu ' pare să mai funcționeze: tipărește 429 de solicitări prea mari
--convert-links argumentele pot fi utile, de asemenea – primul face legăturile relative; acest lucru necesită adăugarea adresei URL a domeniului în " save / https:///domain" dar va ajuta atunci când site-ul nu ' nu folosește URL-uri absolute.

Răspuns

Dacă doriți să arhivați un site mic, Echipa de arhivare menține ArchiveBot , un bot IRC unde puteți solicita accesarea cu crawlere a site-urilor web. Echipa Arhivă va trimite apoi paginile accesate cu crawlere la mașina Wayback a Arhivei Internet.

Comentarii

Acest lucru este extrem de util.

Răspuns

Wayback Machine nu oferă o modalitate de a trimite un site întreg, doar o singură pagină așa cum ați văzut deja găsit. Acest lucru este atins în câteva puncte din Întrebări frecvente despre mașina Wayback :

Pot adăuga pagini la Wayback Machine?

On https://archive.org/web puteți utiliza " Salvați pagina acum " caracteristică pentru a salva o anumită pagină o singură dată. În prezent, aceasta nu adaugă adresa URL la niciun viitor acces cu crawlere și nici nu salvează mai mult de acea pagină. Nu salvează mai multe pagini. pagini, directoare sau site-uri întregi .

și

Cum pot include site-ul meu în Mașina Wayback?

O mare parte din datele noastre web arhivate provin din propriile noastre crawle-uri sau din crawl-urile Alexa Internet. Niciuna dintre organizații nu are " accesând cu crawlere site-ul meu acum! " proces de trimitere . Căutările de pe Internet Archive tind să găsească site-uri care sunt bine conectate de alte site-uri. Cel mai bun mod de a ne asigura că găsim site-ul dvs. web este să vă asigurați că acesta este inclus în directoarele online și că site-urile similare / conexe vă leagă.

Comentarii

Acesta nu este un răspuns la întrebare. Doar pentru că nu există un mod oficial de a faceți-o, sarcina nu este imposibil de realizat. De fapt, ar trebui să fie destul de ușor să bifați un script care adaugă linkuri recursiv.

@db, răspunsul kenorb ' pare a fi ceea ce cereați. De altfel, acest răspuns îmi este mai util în acest moment, întrucât am vrut doar să capteze The WaybackMachine o pagină pentru mine acum.

Răspuns

Acum este posibil să arhivezi o pagină și toate paginile conectate . În funcție de configurarea site-ului dvs. web, acesta poate face truc

Un citat din anunț :

Acum puteți salva toate„ outlink-urile ”unei pagini web cu un singur clic.Bifând caseta de selectare „Salvați outlink-urile” puteți salva pagina solicitată și, de asemenea, toate paginile legate

Comentarii

De unde este disponibilă această opțiune?
Am ' am editat răspunsul (sper că ' Accept) că Salvează pagina acum necesită o Conectare pentru a utiliza această opțiune (care a fost adăugată la sfârșitul anului 2019). @kenorb vă rugăm să luați în considerare schimbarea răspunsului acceptat în acesta!

Răspuns

Acest articolul de pe archive.org sugerează, de asemenea, un serviciu plătit, care va face accesarea cu crawlere de câte ori doriți:

Înscrieți-vă pentru un cont Archive-It

Archive-It este un serviciu de abonament furnizat de Internet Archive, care vă permite să derulați propriile proiecte de accesare cu crawlere fără nici o expertiză tehnică. Spuneți-ne ce să accesăm cu crawlere și cât de des să îl accesăm cu crawlere, iar noi executăm accesarea cu crawlere și punem rezultatele în Wayback Machine. p>

Probabil că acest lucru nu este urmărit, dar pentru unele companii acest serviciu ar putea fi util. Presupun că ajută la finanțarea archive.org, care altfel este gratuită.

Comentarii

Răspuns

Comentarii

Răspuns

Comentarii

Răspuns

Comentarii

Răspuns

Comentarii

Răspuns

Lasă un răspuns Anulează răspunsul