Aby zapisać pojedynczą stronę za pomocą Wayback Machine , mogę przejść do:

Jak mogę zarchiwizować witrynę rekurencyjnie za pomocą Wayback Machine ?


Jest taki projekt jak wayback-machine-downloader , ale szukam funkcji, która umożliwi mi rekurencyjne przesyłanie witryny.

Komentarze

  • Czy masz jakiekolwiek trudności z używaniem techniki URL, wspomnieć w swoim pytaniu? ' sprawiło, że działało to setki razy, ale ' też nie udało mi się wiele razy. uzyskać około 80% skuteczności, nawet dla tych samych stron w różnych terminach.

Odpowiedź

Ponieważ Wayback Machine nie zapewnia takiej funkcji, znalazłem pewne obejście.

  1. Najpierw wykonaj kopię lustrzaną witryny za pomocą wget, np.

    wget -m https://example.com/ 
  2. Następnie użyj curl, aby zarchiwizować wszystkie strony pojedynczo ten, który „już pobrałeś.

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ";" 

    Uwaga: możesz zmienić .html na .php lub dołącz określony typ plików.

Komentarze

  • Jeśli witryna nie ' nie używa rozszerzeń (takich jak html lub php – jak w konfiguracji SE), w jaki sposób dostosujesz swoje polecenie?
  • Ty można zmienić -name "*.html" na -type f, aby uwzględnić wszystkie pliki.
  • Jak to działa z parametrami zapytania?
  • Nie ' już nie działa: drukuje 429 za dużo żądań
  • --convert-links przydatne mogą być również argumenty – pierwszy z nich sprawia, że linki są względne; wymaga to dodania adresu URL domeny do " save / https:///domain" ale pomoże, gdy witryna nie ' nie używa bezwzględnych adresów URL.

Odpowiedź

Jeśli chcesz zarchiwizować małą witrynę internetową, zespół archiwum obsługuje ArchiveBot , bota IRC, za pomocą którego możesz poprosić o przeszukanie stron internetowych. Zespół ds. Archiwizacji prześle następnie zindeksowane strony do Wayback Machine Internet Archive.

Komentarze

  • Jest to niezwykle pomocne.

Odpowiedź

Wayback Machine nie umożliwia przesłania całej witryny, tylko jednej strony już znalezione. Poruszono to w kilku punktach często zadawanych pytań dotyczących Wayback Machine :

Czy mogę dodawać strony do Wayback Machine?

W dniu https://archive.org/web możesz użyć " Zapisz stronę teraz " do jednorazowego zapisania określonej strony. Obecnie nie dodaje to adresu URL do żadnych przyszłych indeksowań ani nie zapisuje więcej niż jednej strony. Nie zapisuje wielu strony, katalogi lub całe witryny .

i

Jak mogę włączyć moją witrynę do the Wayback Machine?

Większość naszych zarchiwizowanych danych internetowych pochodzi z naszych własnych przeszukiwań lub z indeksów Alexa Internet. Żadna organizacja nie " indeksuje teraz moją witrynę! " proces przesyłania . Przeszukiwania archiwów internetowych zwykle znajdują witryny, do których prowadzą dobre linki z innych witryn. Najlepszym sposobem na upewnienie się, że znajdujemy Twoją witrynę internetową, jest upewnienie się, że znajduje się ona w katalogach online i że podobne / powiązane witryny zawierają linki do Ciebie. p>

Komentarze

  • To nie jest odpowiedź na pytanie. Tylko dlatego, że nie ma oficjalnego sposobu zrób to, zadanie nie jest niemożliwe do wykonania. W rzeczywistości powinno być całkiem łatwo utworzyć skrypt rekurencyjnie dodający linki.
  • @db, kenorb ' odpowiedź wydaje się być tym, o co prosiłeś. Nawiasem mówiąc, ta odpowiedź jest dla mnie bardziej przydatna w tej chwili, ponieważ chciałem, aby WaybackMachine przechwycił jedna strona dla mnie teraz.

Odpowiedź

Teraz można zarchiwizować stronę i wszystkie połączone strony . W zależności od konfiguracji Twojej witryny może to załatwić sprawę

Cytat z ogłoszenia :

Teraz możesz jednym kliknięciem zapisać wszystkie„ linki wychodzące ”strony internetowej.Zaznaczając pole wyboru „zapisz linki wychodzące”, możesz zapisać żądaną stronę, a także wszystkie strony, do których prowadzą linki.

Komentarze

  • Skąd ta opcja jest dostępna?
  • ' redagowałem odpowiedź (mam nadzieję, że ' zgadzam się), że Zapisz stronę teraz wymaga Zaloguj się w celu skorzystania z tej opcji (która została dodana pod koniec 2019 r.). @kenorb, rozważ zmianę zaakceptowanej odpowiedzi na tę!

Odpowiedź

To artykuł na archive.org sugeruje również płatną usługę, która będzie indeksować za Ciebie tak często, jak chcesz:

  1. Zarejestruj konto Archive-It

Archive-It to usługa subskrypcji udostępniana przez Internet Archive, która umożliwia uruchamianie własnych projektów indeksowania bez żadnej wiedzy technicznej. Powiedz nam, co indeksować i jak często to indeksować, a my wykonamy przeszukiwanie i umieścimy wyniki w Wayback Machine.

Prawdopodobnie nie o to Ci chodzi, ale dla niektórych firm ta usługa może być przydatna. Zakładam, że pomaga finansować archive.org, która poza tym jest bezpłatna.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *