Para guardar una sola página a través de Wayback Machine puedo ir a:

¿Cómo puedo archivar el sitio web de forma recursiva por Wayback Machine? ?


Hay algún proyecto como wayback-machine-downloader , pero estoy buscando una función que me permita subir el sitio web de forma recursiva.

Comentarios

  • ¿Tiene alguna dificultad para utilizar la técnica de URL? menciono en su pregunta? Yo ' lo he hecho funcionar cientos de veces, pero ' también he fallado muchas veces. obtenga una tasa de éxito del 80%, incluso para las mismas páginas en fechas diferentes.

Responder

Desde Wayback Machine no proporciona tal característica, he encontrado una solución.

  1. Primero, refleje el sitio web usando wget, por ejemplo,

    wget -m https://example.com/ 
  2. Luego, use curl para archivar todas las páginas una por uno que haya descargado.

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ";" 

    Nota: Puede cambiar .html a .php, o incluir cierto tipo de archivos.

Comentarios

  • Si el sitio no ' t usa extensiones (como html o php – como SE está configurado), ¿cómo adaptas tu comando?
  • Tú puede cambiar -name "*.html" a -type f para incluir todos los archivos.
  • ¿Cómo funciona esto con los parámetros de consulta?
  • Ya no ' parece funcionar: imprime 429 Demasiadas solicitudes
  • El --convert-links Los argumentos también pueden ser útiles: el primero hace que los enlaces sean relativos; esto requiere agregar la URL del dominio en el " save / https:///domain" pero ayudará cuando el sitio no ' t use URL absolutas.

Respuesta

Si desea archivar un sitio web pequeño, el Equipo de archivo mantiene el ArchiveBot , un bot de IRC donde puede solicitar rastrear sitios web. El equipo de archivo enviará las páginas rastreadas a la Wayback Machine de Internet Archive.

Comentarios

  • Esto es increíblemente útil.

Responder

La Wayback Machine no ofrece una forma de enviar un sitio completo, solo una sola página, ya que ya encontrado. Esto se aborda en un par de puntos de sus preguntas frecuentes sobre Wayback Machine :

¿Puedo agregar páginas a Wayback Machine?

En https://archive.org/web puedes usar la " Guardar página ahora " función para guardar una página específica una vez. Actualmente, no agrega la URL a ningún rastreo futuro ni guarda más de esa página. No guarda múltiples páginas, directorios o sitios completos .

y

¿Cómo puedo incluir mi sitio en la Wayback Machine?

Gran parte de nuestros datos web archivados proviene de nuestros propios rastreos o de los rastreos de Alexa Internet. ¡Ninguna organización tiene un " rastrea mi sitio ahora! " proceso de envío . Los rastreos de Internet Archive tienden a encontrar sitios que están bien vinculados desde otros sitios. La mejor manera de asegurarnos de que encontremos su sitio web es asegurarse de que esté incluido en directorios en línea y que sitios similares / relacionados se vinculen con usted.

Comentarios

  • Esta no es una respuesta a la pregunta. Solo porque no hay una forma oficial de hazlo, la tarea no es imposible de realizar. De hecho, debería ser bastante fácil crear un script que agregue enlaces de forma recursiva.
  • @db, kenorb ' s respuesta parece ser lo que estabas pidiendo. Por cierto, esta respuesta es más útil para mí en este momento, ya que solo quería que The WaybackMachine capturara una página para mí ahora.

Responder

Ahora es posible archivar una página y todas las páginas enlazadas . Dependiendo de la configuración de su sitio web, puede funcionar

Una cita de el anuncio :

Ahora puede guardar todos los» enlaces externos «de una página web con un solo clic.Al seleccionar la casilla de verificación «guardar enlaces externos», puede guardar la página solicitada y también todas las páginas vinculadas

Comentarios

  • ¿Desde dónde está disponible esta opción?
  • Yo ' he editado la respuesta (espero que ' aceptaré) que Guardar página ahora requiere Iniciar sesión para usar esta opción (que se agregó a fines de 2019). @kenorb, por favor considere cambiar la respuesta aceptada a esta.

Respuesta

Este artículo en archive.org también sugiere un servicio pago que hará el rastreo por usted con la frecuencia que» desee:

  1. Regístrese para obtener una cuenta Archive-It

Archive-It es un servicio de suscripción proporcionado por Internet Archive que le permite ejecutar sus propios proyectos de rastreo sin ninguna experiencia técnica. Díganos qué rastrear y con qué frecuencia, y nosotros ejecutamos el rastreo y colocamos los resultados en Wayback Machine.

Probablemente esto no sea lo que busca, pero para algunas empresas este servicio puede resultar útil. Supongo que ayuda a financiar archive.org, que de lo contrario es gratis.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *