전체 웹 사이트를 보관하는 방법은 무엇입니까?

Wayback Machine 을 통해 단일 페이지를 저장하려면 다음으로 이동할 수 있습니다.

http://web.archive.org/save/https://somewebsite.example.com/

Wayback Machine으로 웹 사이트를 재귀 적으로 보관하려면 어떻게해야합니까? ?

wayback-machine-downloader 와 같은 일부 프로젝트가 있습니다. 하지만 웹 사이트를 반복적으로 업로드 할 수있는 기능을 찾고 있습니다.

URL 기법을 사용하는 데 어려움이 있습니까? 질문에 언급 하시겠습니까? ' 수백 번 작동했지만 ' 또한 여러 번 실패했습니다. 다른 날짜의 동일한 페이지에서도 약 80 %의 성공률을 얻습니다.

답변

Wayback Machine 은 이러한 기능을 제공하지 않습니다. 몇 가지 해결 방법을 찾았습니다.

먼저 wget, 예 :
```
wget -m https://example.com/ 
```
그런 다음 curl를 사용하여 모든 페이지를 하나씩 보관합니다. 다운로드 한 것입니다.
```
find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ";" 
```
^{참고 : .html를}

또는 특정 유형의 파일을 포함합니다.

사이트에서 확장 프로그램 (예 : html 또는 php-SE가 설정 됨)을 사용하지 않는 경우 ' 명령을 어떻게 조정합니까?
당신 모든 파일을 포함하도록 -name "*.html"를 -type f로 변경할 수 있습니다.
검색어 매개 변수와 어떻게 작동하나요?
' 더 이상 작동하지 않는 것 같습니다. 429 개의 너무 많은 요청을 인쇄합니다.
--convert-links 인수도 유용 할 수 있습니다. 전자는 링크를 상대적으로 만듭니다. 이를 위해서는 도메인 URL을 " save / https:///domain&quot에 추가해야합니다. 그러나 사이트에서 절대 URL을 사용하지 않는 '

답변

작은 웹 사이트를 보관하려는 경우 보관 팀 이 ArchiveBot , 웹 사이트 크롤링을 요청할 수있는 IRC 봇. 그러면 아카이브 팀은 크롤링 된 페이지를 Internet Archive의 웨이 백 머신에 제출합니다.

이것은 매우 유용합니다.

답변

Wayback Machine은 전체 사이트를 제출하는 방법을 제공하지 않습니다. 이미 발견되었습니다.이 내용은 웨이 백 머신 FAQ 의 몇 가지 요점에서 다룹니다.

Wayback Machine에 페이지를 추가 할 수 있나요?

https://archive.org/web " 지금 페이지 저장 " 기능을 사용하여 특정 페이지를 한 번 저장합니다. 현재 향후 크롤링에 URL을 추가하지 않으며 해당 페이지 이상을 저장하지도 않습니다. 여러 페이지를 저장하지 않습니다. 페이지, 디렉토리 또는 전체 사이트 .

및

내 사이트를

보관 된 웹 데이터의 대부분은 자체 크롤링 또는 Alexa Internet의 크롤링에서 가져옵니다. 두 조직 모두 " 지금 내 사이트를 크롤링하지 않습니다. " 제출 프로세스 . Internet Archive의 크롤링은 다른 사이트에서 잘 링크 된 사이트를 찾는 경향이 있습니다. 귀하의 웹 사이트를 찾을 수있는 가장 좋은 방법은 온라인 디렉토리에 포함되어 있고 유사 / 관련 사이트가 귀하에게 링크되는지 확인하는 것입니다.

댓글

이것은 질문에 대한 답변이 아닙니다. 공식적인 방법이 없기 때문입니다. 작업을 수행하는 것은 불가능하지 않습니다. 실제로 링크를 재귀 적으로 추가하는 스크립트를 작성하는 것은 매우 쉽습니다.

@db, kenorb '의 답변 이 귀하가 요청한 것 같습니다. 덧붙여,이 답변은 The WaybackMachine이 캡처하기를 원했기 때문에 현재 저에게 더 유용합니다. 지금은 한 페이지입니다.

답변

이제 페이지를 보관 하고 링크 된 모든 페이지 . 웹 사이트 설정에 따라 트릭을 수행 할 수 있습니다.

공지 의 인용문 :

이제 클릭 한 번으로 웹 페이지의 모든”아웃 링크 “를 저장할 수 있습니다.”아웃 링크 저장”확인란을 선택하면 요청한 페이지와 모든 링크 된 페이지를 저장할 수 있습니다.

이 옵션은 어디에서 사용할 수 있습니까?
' 답변을 수정했습니다 (' 동의합니다)이 옵션을 사용하려면 지금 페이지 저장 에 로그인 이 필요합니다 (2019 년 말에 다시 추가됨). @kenorb 허용 된 답변을이 답변으로 변경해보세요!

답변

이 기사 에서는 원하는만큼 자주 크롤링 할 수있는 유료 서비스를 제안합니다.

아카이브-잇 계정에 가입

아카이브-잇 은 인터넷 아카이브에서 제공하는 구독 서비스로, 기술적 전문 지식 없이도 자체 크롤링 프로젝트를 실행할 수 있습니다. 크롤링 할 항목과 크롤링 빈도를 알려 주시면 크롤링을 실행하고 결과를 Wayback Machine에 저장합니다.

이것은 아마도 당신이 추구하는 것이 아닐 수도 있지만 일부 기업에서는이 서비스가 유용 할 수 있습니다. 나는 그것이 archive.org에 자금을 지원하는 데 도움이된다고 생각합니다. 그렇지 않으면 무료입니다.

댓글

답변

댓글

답변

댓글

답변

댓글

답변

댓글

답변

답글 남기기 답글 취소하기