Aby zapisać pojedynczą stronę za pomocą Wayback Machine , mogę przejść do:
Jak mogę zarchiwizować witrynę rekurencyjnie za pomocą Wayback Machine ?
Jest taki projekt jak wayback-machine-downloader
, ale szukam funkcji, która umożliwi mi rekurencyjne przesyłanie witryny.
Komentarze
- Czy masz jakiekolwiek trudności z używaniem techniki URL, wspomnieć w swoim pytaniu? ' sprawiło, że działało to setki razy, ale ' też nie udało mi się wiele razy. uzyskać około 80% skuteczności, nawet dla tych samych stron w różnych terminach.
Odpowiedź
Ponieważ Wayback Machine nie zapewnia takiej funkcji, znalazłem pewne obejście.
-
Najpierw wykonaj kopię lustrzaną witryny za pomocą
wget
, np.wget -m https://example.com/
-
Następnie użyj
curl
, aby zarchiwizować wszystkie strony pojedynczo ten, który „już pobrałeś.find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ";"
Uwaga: możesz zmienić
.html
na.php
lub dołącz określony typ plików.
Komentarze
- Jeśli witryna nie ' nie używa rozszerzeń (takich jak html lub php – jak w konfiguracji SE), w jaki sposób dostosujesz swoje polecenie?
- Ty można zmienić
-name "*.html"
na-type f
, aby uwzględnić wszystkie pliki. - Jak to działa z parametrami zapytania?
- Nie ' już nie działa: drukuje 429 za dużo żądań
-
--convert-links
przydatne mogą być również argumenty – pierwszy z nich sprawia, że linki są względne; wymaga to dodania adresu URL domeny do " save / https:///domain" ale pomoże, gdy witryna nie ' nie używa bezwzględnych adresów URL.
Odpowiedź
Jeśli chcesz zarchiwizować małą witrynę internetową, zespół archiwum obsługuje ArchiveBot , bota IRC, za pomocą którego możesz poprosić o przeszukanie stron internetowych. Zespół ds. Archiwizacji prześle następnie zindeksowane strony do Wayback Machine Internet Archive.
Komentarze
- Jest to niezwykle pomocne.
Odpowiedź
Wayback Machine nie umożliwia przesłania całej witryny, tylko jednej strony już znalezione. Poruszono to w kilku punktach często zadawanych pytań dotyczących Wayback Machine :
Czy mogę dodawać strony do Wayback Machine?
W dniu https://archive.org/web możesz użyć " Zapisz stronę teraz " do jednorazowego zapisania określonej strony. Obecnie nie dodaje to adresu URL do żadnych przyszłych indeksowań ani nie zapisuje więcej niż jednej strony. Nie zapisuje wielu strony, katalogi lub całe witryny .
i
Jak mogę włączyć moją witrynę do the Wayback Machine?
Większość naszych zarchiwizowanych danych internetowych pochodzi z naszych własnych przeszukiwań lub z indeksów Alexa Internet. Żadna organizacja nie " indeksuje teraz moją witrynę! " proces przesyłania . Przeszukiwania archiwów internetowych zwykle znajdują witryny, do których prowadzą dobre linki z innych witryn. Najlepszym sposobem na upewnienie się, że znajdujemy Twoją witrynę internetową, jest upewnienie się, że znajduje się ona w katalogach online i że podobne / powiązane witryny zawierają linki do Ciebie. p>
Komentarze
- To nie jest odpowiedź na pytanie. Tylko dlatego, że nie ma oficjalnego sposobu zrób to, zadanie nie jest niemożliwe do wykonania. W rzeczywistości powinno być całkiem łatwo utworzyć skrypt rekurencyjnie dodający linki.
- @db, kenorb ' odpowiedź wydaje się być tym, o co prosiłeś. Nawiasem mówiąc, ta odpowiedź jest dla mnie bardziej przydatna w tej chwili, ponieważ chciałem, aby WaybackMachine przechwycił jedna strona dla mnie teraz.
Odpowiedź
Teraz można zarchiwizować stronę i wszystkie połączone strony . W zależności od konfiguracji Twojej witryny może to załatwić sprawę
Cytat z ogłoszenia :
Teraz możesz jednym kliknięciem zapisać wszystkie„ linki wychodzące ”strony internetowej.Zaznaczając pole wyboru „zapisz linki wychodzące”, możesz zapisać żądaną stronę, a także wszystkie strony, do których prowadzą linki.
Komentarze
- Skąd ta opcja jest dostępna?
- ' redagowałem odpowiedź (mam nadzieję, że ' zgadzam się), że Zapisz stronę teraz wymaga Zaloguj się w celu skorzystania z tej opcji (która została dodana pod koniec 2019 r.). @kenorb, rozważ zmianę zaakceptowanej odpowiedzi na tę!
Odpowiedź
To artykuł na archive.org sugeruje również płatną usługę, która będzie indeksować za Ciebie tak często, jak chcesz:
- Zarejestruj konto Archive-It
Archive-It to usługa subskrypcji udostępniana przez Internet Archive, która umożliwia uruchamianie własnych projektów indeksowania bez żadnej wiedzy technicznej. Powiedz nam, co indeksować i jak często to indeksować, a my wykonamy przeszukiwanie i umieścimy wyniki w Wayback Machine.
Prawdopodobnie nie o to Ci chodzi, ale dla niektórych firm ta usługa może być przydatna. Zakładam, że pomaga finansować archive.org, która poza tym jest bezpłatna.