Para salvar uma única página via Wayback Machine , posso ir para:

Como posso arquivar o site recursivamente por Wayback Machine ?


Existe algum projeto como wayback-machine-downloader , mas estou procurando um recurso que me permita fazer upload do site recursivamente.

Comentários

  • Você está tendo alguma dificuldade para usar a técnica de URL? mencionou na sua pergunta? Eu ' já o fiz funcionar centenas de vezes, mas ' também o fiz falhar muitas vezes. obtenha cerca de uma taxa de sucesso de 80%, mesmo para as mesmas páginas em datas diferentes.

Resposta

Desde Wayback Machine não oferece esse recurso, encontrei uma solução alternativa.

  1. Primeiro, espelhe o site usando wget, por exemplo,

    wget -m https://example.com/ 
  2. Em seguida, use curl para arquivar todas as páginas uma por um que você baixou.

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ";" 

    Observação: você pode alterar .html para .php, ou incluir certos tipos de arquivos.

Comentários

  • Se o site não ' não usa extensões (como html ou php – como SE está configurado), como você adapta seu comando?
  • Você pode alterar -name "*.html" para -type f para incluir todos os arquivos.
  • Como isso funciona com parâmetros de consulta?
  • Não ' parece não funcionar mais: imprime 429 Solicitações em excesso
  • O --convert-links argumentos também podem ser úteis – o primeiro torna os links relativos; isso requer a adição do URL do domínio em " save / https:///domain" mas ajudará quando o site não ' usar URLs absolutos.

Resposta

Se você deseja arquivar um pequeno site da Web, a Equipe de Arquivo mantém o ArchiveBot , um bot IRC onde você pode solicitar o rastreamento de sites. A equipe de arquivo enviará as páginas rastreadas para a máquina de Wayback do Internet Archive.

Comentários

  • Isso é extremamente útil.

Resposta

A Wayback Machine não oferece uma maneira de enviar um site inteiro, apenas uma única página conforme você já encontrado. Isso é abordado em alguns pontos das Perguntas frequentes sobre a máquina de retorno :

Posso adicionar páginas à máquina Wayback?

Em https://archive.org/web você pode usar a " Salvar página agora " recurso para salvar uma página específica uma vez. Atualmente, isso não adiciona o URL a rastreamentos futuros nem salva mais de uma página. Não salva vários páginas, diretórios ou sites inteiros .

e

Como posso incluir meu site no the Wayback Machine?

Muitos dos nossos dados arquivados da web vêm de nossos próprios rastreamentos ou dos rastreamentos da Alexa Internet. Nenhuma das organizações tem um " rastrear meu site agora! " processo de envio . Os rastreamentos do Internet Archive tendem a encontrar sites com bons links de outros sites. A melhor maneira de garantir que encontremos seu site é verificar se ele está incluído em diretórios online e se sites semelhantes / relacionados possuem links para você.

Comentários

  • Esta não é uma resposta à pergunta. Só porque não existe uma maneira oficial de faça isso, a tarefa não é impossível de realizar. Na verdade, deve ser muito fácil preparar um script que adiciona links recursivamente.
  • @db, kenorb ' a resposta parece ser o que você estava pedindo. A propósito, essa resposta é mais útil para mim no momento, porque eu só queria que a The WaybackMachine capturasse uma página para mim agora.

Resposta

Agora é possível arquivar uma página e todas as páginas vinculadas . Dependendo da configuração do seu site, ele pode funcionar.

Uma citação o anúncio :

Agora você pode salvar todos os“ links externos ”de uma página da web com um único clique.Selecionando a caixa de seleção “salvar links externos”, você pode salvar a página solicitada e também todas as páginas vinculadas

Comentários

  • De onde essa opção está disponível?
  • Eu ' editei a resposta (espero que ' aceitarei) que Salvar página agora requer um Login para usar essa opção (que foi adicionada no final de 2019). @kenorb considere mudar a resposta aceita para esta!

Resposta

Isto o artigo em archive.org também sugere um serviço pago que fará o rastreamento para você com a frequência que você desejar:

  1. Inscreva-se para uma conta Archive-It

Archive-It é um serviço de assinatura fornecido pelo Internet Archive que permite que você execute seus próprios projetos de rastreamento sem nenhum conhecimento técnico. Diga-nos o que rastrear e com que frequência, e nós executamos o rastreamento e colocamos os resultados na Máquina de Wayback.

Provavelmente não é isso que você está procurando, mas para alguns negócios, esse serviço pode ser útil. Presumo que ajude a financiar archive.org, que de outra forma é gratuito.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *