Comment archiver lensemble du site?

Pour enregistrer une seule page via Wayback Machine , je peux accéder à:

http://web.archive.org/save/https://somewebsite.example.com/

Comment puis-je archiver le site Web de manière récursive par Wayback Machine ?

Il existe un projet tel que wayback-machine-downloader , mais je recherche une fonctionnalité qui me permette de télécharger le site de manière récursive.

Commentaires

Avez-vous des difficultés à utiliser la technique d’URL que vous mentionner dans votre question? Jai ' que cela a fonctionné des centaines de fois, mais jai ' également échouer plusieurs fois. Je obtenez un taux de réussite denviron 80%, même pour les mêmes pages à des dates différentes.

Réponse

Depuis Wayback Machine ne fournit pas une telle fonctionnalité, jai trouvé une solution de contournement.

Tout dabord, dupliquez le site Web en utilisant wget, par exemple
```
wget -m https://example.com/ 
```
Ensuite, utilisez curl pour archiver toutes les pages une par celui que vous « avez téléchargé.
```
find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ";" 
```
^{Remarque: vous pouvez remplacer .html par .php, ou inclure certains types de fichiers.}

Commentaires

Si le site ' nutilise pas dextensions (telles que html ou php – comme SE est configuré), comment adaptez-vous votre commande?
Vous peut changer -name "*.html" en -type f pour inclure tous les fichiers.
Comment cela fonctionne avec les paramètres de requête?
Cela ' ne semble plus fonctionner: il imprime 429 demandes trop nombreuses
Les --convert-links les arguments peuvent également être utiles – le premier rend les liens relatifs; cela nécessite lajout de lURL du domaine dans " save / https:///domain" mais aidera lorsque le site nutilise pas ' des URL absolues.

Réponse

Si vous souhaitez archiver un petit site Web, l équipe des archives gère le ArchiveBot , un bot IRC où vous pouvez demander à explorer des sites Web. Léquipe darchivage soumettra ensuite les pages explorées à la Wayback Machine de lInternet Archive.

Commentaires

Ceci est extrêmement utile.

Réponse

La Wayback Machine noffre pas un moyen de soumettre un site entier, une seule page comme vous « avez déjà trouvé. Ceci est abordé dans quelques points de leur FAQ Wayback Machine :

Puis-je ajouter des pages à la Wayback Machine?

Sur https://archive.org/web , vous pouvez utiliser " Enregistrer la page maintenant " pour enregistrer une page spécifique une fois. Cela najoute actuellement pas lURL à de futures explorations et nenregistre pas plus dune page. Cela nenregistre pas plusieurs pages, répertoires ou sites entiers .

et

Comment puis-je inclure mon site dans la Wayback Machine?

La plupart de nos données Web archivées proviennent de nos propres explorations ou des explorations dAlexa Internet. Aucune des deux organisations na " explorer mon site maintenant! " processus de soumission . Les explorations dInternet Archive ont tendance à trouver des sites qui sont bien liés à partir dautres sites. La meilleure façon de nous assurer que nous trouvons votre site Web est de sassurer quil est inclus dans les répertoires en ligne et que des sites similaires / connexes vous renvoient.

Commentaires

Ce nest pas une réponse à la question. Juste parce quil ny a pas de moyen officiel de faites-le, la tâche nest pas impossible à effectuer. En fait, il devrait être assez facile de créer un script qui ajoute des liens de manière récursive.

@db, kenorb ' semble être ce que vous demandiez. Dailleurs, cette réponse mest plus utile pour le moment, car je voulais juste que The WaybackMachine capture une page pour moi maintenant.

Réponse

Il est maintenant possible darchiver une page et toutes les pages liées . Selon la configuration de votre site Web, cela peut faire laffaire

Une citation de lannonce :

Vous pouvez désormais enregistrer tous les » liens sortants « dune page Web en un seul clic.En cochant la case « enregistrer les liens sortants », vous pouvez enregistrer la page demandée ainsi que toutes les pages liées

Commentaires

Doù cette option est-elle disponible?
Jai ' modifié la réponse (jespère quils ' ll accept) que Enregistrer la page maintenant nécessite une connexion pour utiliser cette option (qui a été ajoutée à la fin de 2019). @kenorb, veuillez envisager de changer la réponse acceptée en celle-ci!

Réponse

Cette larticle sur archive.org suggère également un service payant qui effectuera lexploration pour vous aussi souvent que vous » voudriez:

Créer un compte Archive-It

Archive-It est un service dabonnement fourni par Internet Archive qui vous permet dexécuter vos propres projets dexploration sans aucune expertise technique. Dites-nous ce quil faut explorer et à quelle fréquence lexplorer, et nous exécutons lexploration et mettons les résultats dans Wayback Machine.

Ce nest probablement pas ce que vous recherchez, mais pour certaines entreprises, ce service pourrait être utile. Je suppose que cela aide à financer archive.org, qui est autrement gratuit.

Commentaires

Réponse

Commentaires

Réponse

Commentaires

Réponse

Commentaires

Réponse

Commentaires

Réponse

Laisser un commentaire Annuler la réponse