Per salvare una singola pagina tramite Wayback Machine posso andare su:

Come posso archiviare il sito web in modo ricorsivo con Wayback Machine ?


Esiste un progetto come wayback-machine-downloader , ma sto cercando una funzionalità che mi consenta di caricare il sito web in modo ricorsivo.

Commenti

  • Hai difficoltà a utilizzare la tecnica URL che menzione nella tua domanda? ' lho fatto funzionare centinaia di volte, ma ' ho anche dovuto fallire molte volte. ottenere una percentuale di successo dell80% circa, anche per le stesse pagine in date diverse.

Risposta

Da Wayback Machine non fornisce tale funzionalità, ho trovato una soluzione alternativa.

  1. Per prima cosa, rispecchia il sito web utilizzando wget, ad es.

    wget -m https://example.com/ 
  2. Quindi utilizza curl per archiviare tutte le pagine una per uno che hai scaricato.

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ";" 

    Nota. Puoi cambiare .html in .php o includi un determinato tipo di file.

Commenti

  • Se il sito non ' t utilizza estensioni (come html o php, come SE è configurato), come adattare il comando?
  • Tu può modificare -name "*.html" in -type f per includere tutti i file.
  • Come funziona con i parametri di ricerca?
  • Non ' sembra funzionare più: stampa 429 Too Many Requests
  • Il --convert-links anche gli argomenti possono essere utili: il primo rende i collegamenti relativi; ciò richiede laggiunta dellURL del dominio in " save / https:///domain" ma sarà utile quando il sito non ' utilizza URL assoluti.

Risposta

Se desideri archiviare un piccolo sito web, il Archive Team gestisce il ArchiveBot , un bot IRC in cui è possibile richiedere di eseguire la scansione di siti Web. Il team di Archive invierà quindi le pagine sottoposte a scansione alla Wayback Machine di Internet Archive.

Commenti

  • Questo è incredibilmente utile.

Risposta

La Wayback Machine non offre un modo per inviare un intero sito, solo una singola pagina come te già trovato. Questo è toccato in un paio di punti delle loro Domande frequenti su Wayback Machine :

Posso aggiungere pagine a Wayback Machine?

Su https://archive.org/web puoi utilizzare " Salva pagina ora " per salvare una pagina specifica una volta. Questo attualmente non aggiunge lURL a nessuna scansione futura né salva più di quella pagina. Non salva più pagine, directory o interi siti .

e

Come posso includere il mio sito in la Wayback Machine?

La maggior parte dei nostri dati web archiviati proviene dalle nostre scansioni o dalle scansioni di Alexa Internet. Nessuna delle due organizzazioni ha " eseguire la scansione del mio sito adesso! " procedura di invio . Le scansioni di Internet Archive tendono a trovare siti che sono ben collegati da altri siti. Il modo migliore per assicurarci di trovare il tuo sito web è assicurarsi che sia incluso nelle directory online e che siti simili / correlati rimandino a te.

Commenti

  • Questa non è una risposta alla domanda. Solo perché non esiste un modo ufficiale per fallo, lattività non è impossibile da eseguire. In effetti, dovrebbe essere abbastanza facile creare uno script che aggiunga collegamenti in modo ricorsivo.
  • @db, kenorb ' s risposta sembra essere quello che stavi chiedendo. Per inciso, questa risposta mi è più utile in questo momento, poiché volevo solo che The WaybackMachine catturasse una pagina per me adesso.

Risposta

Ora è possibile archiviare una pagina e tutte le pagine collegate . A seconda della configurazione del tuo sito web può fare il trucco

Una citazione da lannuncio :

Ora puoi salvare tutti gli” outlink “di una pagina web con un solo clic.Selezionando la casella di controllo “salva outlink” puoi salvare la pagina richiesta e anche tutte le pagine collegate

Commenti

  • Da dove è disponibile questa opzione?
  • I ' ho modificato la risposta (spero che ' Accetto) che Salva pagina adesso richiede un Accedi per utilizzare questa opzione (che è stata aggiunta alla fine del 2019). @kenorb, valuta la possibilità di cambiare la risposta accettata in questa!

Risposta

Questa larticolo su archive.org suggerisce anche un servizio a pagamento che eseguirà la scansione per te tutte le” volte che vuoi:

  1. Registrati per un account Archive-It

Archive-It è un servizio in abbonamento fornito da Internet Archive che ti consente di eseguire i tuoi progetti di scansione senza alcuna competenza tecnica. Dicci cosa scansionare e con quale frequenza, quindi eseguiamo la scansione e inseriamo i risultati nella Wayback Machine.

Questo probabilmente non è quello che stai cercando, ma per alcune aziende questo servizio potrebbe essere utile. Presumo che aiuti a finanziare archive.org, che altrimenti è gratuito.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *