Как скачать сайт из вебархива

Сайты / От Бидюков Денис / 24.11.2018

Обращаю ваше внимание на то, что все операции производятся в операционной системе Ubuntu (Linux). Как все это провернуть на Windows я не знаю. Если хотите все проделать сами, а у вас Windows, то можете поставить VirtualBox, а на него установить ту же Ubuntu. И приготовьтесь к тому, что сайт будет качаться сутки или даже двое. Однажды один сайт у меня скачивался трое суток.

По сути, на текущий момент мы имеем два сервиса с архивом сайтов. Это российский сервис web-archiv.ru и зарубежный archive.org. Я скачивал сайты с обоих сервисов. Только вот в случае с первым, тут не все так просто. Для этого был написан скрипт, который требует доработки, но поскольку мне он более не требуется, соответственно я не стал его дорабатывать. В любом случае его вполне достаточно на то, что бы скачать страницы сайта, но приготовьтесь к ошибкам, поскольку очень велика вероятность появления непредусмотренных особенностей того или иного сайта.

Первым делом я расскажу о том, как скачать сайт с web.archive.org, поскольку это самый простой способ. Вторым способом имеет смысл воспользоваться если по каким-то причинам копия сайта на web.archive.org окажется неполной или её не окажется совсем. Но скорее всего вам вполне хватит первого способа.

Содержание

Принцип работы веб-архива

Прежде чем пытаться восстанавливать сайт из веб-архива, необходимо понять принцип его работы, который является не совсем очевидным. С особенностями работы сталкиваешься только тогда, когда скачаешь архив сайта. Вы наверняка замечали, попадая на тот или иной сайт, сообщение о том, что домен не продлен или хостинг не оплачен. Поскольку бот, который обходит сайты и скачивает страницы, не понимает что подобная страница не является страницей сайта, он скачивает её как новую версию главной страницы сайта.

Таким образом получается если мы скачаем архив сайта, то вместо главной страницы будем иметь сообщение регистратора или хостера о том, что сайт не работает. Чтобы этого избежать, нам необходимо изучить архив сайта. Для этого потребуется просмотреть все копии и выбрать одну или несколько где на главной странице страница сайта, а не заглушка регистратора или хостера.

Качаем сайт с web.archive.org

Процесс восстановления сайта из веб-архива я покажу на примере сайта 1mds.ru. Я не знаю что это за сайт, я всего лишь знаю что у него в архиве много страниц, а это значит что сайт не только существовал, но с ним работали.

Для того, что бы открыть архив нужного сайта, нам необходимо пройти по такой вот ссылке:

http://web.archive.org/web/*/1mds.ru

На 24 ноября 2018 года, при открытии этой ссылки я обнаружил вот такую картину:

Как видите на главной зафиксировались результаты экспериментов с программной частью. Если мы просто скачаем сайт как есть, то в качестве главной будет именно эта страница. нам необходимо избежать попадания в архив таких страниц. Как это сделать? Довольно просто, но для начала необходимо определить когда последний раз в архив добавлялась главная страница сайта. Для этого нам необходимо воспользоваться навигацией по архиву сайта, которая расположена вверху справа:

Кликаем левую стрелку ибо правая все равно не активна, и кликаем до тех пор, пока не увидим главную страницу сайта. Возможно кликать придется много, бывает домены попадаются с весьма богатым прошлым. Например сайт, на примере которого я демонстрирую работу с архивом, не является исключением.

Вот мы можем видеть что 2 мая 2018-го бот обнаружил сообщение о том, что домен направлен на другой сайт:

Классика жанра, регистрируешь домен и направляешь его на существующий дабы не тратить лимит тарифа на количество сайтов.

А до этого, 30 марта, там был вообще блог про шитье-вязание.

Долистал я до 23 октября 2017-го и вижу уже другое содержимое:

Пример страницы сайта из архива за сентябрь

Тут мы видим уже материалы связанные с воспитанием ребенка. Листаем дальше, там вообще попадается период когда на домене была всего одна страница с рекламой:

Пример страницы сайта из архива связанного с рекламой

А вот с 25 апреля 2011 по 10 сентября 2013-го там был сайт связанный с рекламой. В общем нам нужно определиться какой из этих периодов мы хотим восстановить. К примеру я хочу восстановить блог про шитье-вязание. Мне необходимо найти дату его появления и дату когда этот блог был замечен там последний раз.

Я нашел последнюю дату, когда блог был на домене и скопировал ссылку из адресной строки:

http://web.archive.org/web/20180330034350/http://1mds.ru:80/

Мне нужны цифры после web/, я их выделил красным цветом. Это временная метка, когда была сделана копия. Теперь мне нужно найти первую копию блога и также скопировать из URL временную метку. Теперь у нас есть две метки с которой и до которой нам нужна копия сайта. Осталось дело за малым, установить утилиту, которая поможет нам скачать сайт. Для этого потребуется выполнить пару команд.

sudo apt install ruby
sudo gem install wayback_machine_downloader

После чего останется запустить скачивание сайта. Делается это вот такой командой:

wayback_machine_downloader -f20171223224600 -t20180330034350 1mds.ru

Таким образом мы скачаем архив с 23/12/2017 по 30/03/2018. Файлы сайта будут сохранены в домашней директории в папке «websites/1mds.ru». Теперь остается закинуть файлы на хостинг и радоваться результату.

Качаем сайт с web-arhive.ru

Это самый геморройный вариант ибо у данного сервиса нет возможности скачать сайт как у описанного выше. Соответственно пользоваться этим вариантом есть смысл пользоваться только в случае если нужно скачать сайт, которого нет на web.archive.org. Но я сомневаюсь что такое возможно. Этим вариантом я пользовался по причине того, что не знал других вариантов,а поискать поленился.

В итоге я написал скрипт, который позволяет скачать архив сайта с web-arhive.ru. Но велика вероятность того, что это будет сопровождаться ошибками, поскольку скрипт сыроват и был заточен под скачивание определенного сайта. Но на всякий случай я выложу этот скрипт.

Вот ссылка: https://yadi.sk/d/zoMRxwPoSXh0Jw

Пользоваться им довольно просто. Для запуска скачивания необходимо запустить этот скрипт все в той же командной строке, где в качестве параметра вставить ссылку на копию сайта. Должно получиться что-то типа такого:

php get_archive.php «http://web-arhive.ru/view2?time=20160320163021&url=http%3A%2F%2Fremontistroitelstvo.ru%2F»

Заходим на сайт web-arhive.ru, в строке указываем домен и жмем кнопку «Найти». Ниже должны появится года и месяцы в которых есть копии.

Обратите внимание на то, что слева и справа от годов и месяцев есть стрелки, кликая которые можно листать колонки с годами и месяцами.

Остается найти дату с нужной копией, скопировать ссылку из адресной строки и отдать её скрипту. Не забывает помещать ссылку в кавычки во избежание ошибок из-за наличия спецсимволов.

Мало того, что само скачивание сопровождается ошибками, более того, в выбранной копии сайта может не быть каких-то страниц и придется шерстить все копии на предмет наличия той или иной страницы.

Помощь в скачивании сайта из веб-архива

Если у вас вдруг возникли трудности в том, что бы скачать сайт, можете воспользоваться моими услугами. Буду рад помочь. Для начала заполните и отправьте форму ниже. После этого я с вами свяжусь и мы все обсудим.

На сайте отсутствует реклама

Автор не получает прямой выгоды. Если считаете что материал полезен, поддержите проект

Номер карты

Заранее спасибо!

Бидюков Денис

Эксперт по сайтам

Занимаюсь продвижением личного бренда с помощью сайта и SEO. Если Вы хотите из обычного сантехника, электрика, врача или фотографа стать востребованным и высокооплачиваемым специалистом, то я с легкостью Вам помогу.

20 комментариев к “Как скачать сайт из вебархива”

Антон
31.05.2021 в 17:19

Просьба помочь с восстановлением сайта после удаления с хостинга

Ответить
1. Бидюков Денис
  31.05.2021 в 17:29
  
  Не вопрос, пишите в вк или ватсап/вибер
  
  Ответить
  1. Николай
    18.07.2022 в 14:26
    
    php7.4-fpm
    
    Ошибка — &time= при запуске скрипта
    
    Ответить
    1. Бидюков Денис
      19.07.2022 в 17:24
      
      А причем тут php7.4-fpm? Скрипт надо запускать из командной строки, а не на веб-сервере
      
      Ответить
Константин
25.07.2023 в 17:07

root@vm16814:~# gem install wayback_machine_downloader
ERROR: Could not find a valid gem ‘wayback_machine_downloader’ (>= 0), here is why:
Unable to download data from https://rubygems.org/ — timed out (https://rubygems.org/specs.4.8.gz)

Вот такую ошибку получаю 🤷‍♂️

Ответить
1. Бидюков Денис
  27.07.2023 в 11:41
  
  Ну видимо проблемы с доступом к ресурсу где лежит архив. Только что проверил, все дроступно. Или временный сбой был, или проблемы на сервере Вашем
  
  Ответить
Илья
19.08.2023 в 23:08

Добрый день!
Скачал сайт подобным образом.
При открытии скачанного файла HTML, с подключенным интернетом, файлы… информация открывается целиком. При отключенном интернете, открывается только текстовая часть, картинки не открываются / не отображаются.
В чем может быть причина?! И как это исправить?!
П.С. Смысл скачивания сайта целиком был в том чтобы — Если сайт закроется когда-либо… автор сайта прекратит поддержку сайта, то можно будет открыть скачанный файл целиком на стационарном компьютере (в т.ч. и без интернета) и просматривать информацию целиком.
Заранее спасибо.

Ответить
1. Бидюков Денис
  20.08.2023 в 10:43
  
  Здравствуйте! Проблема в том, что скачав сайт, программа не перезаписала абсолютные пути. То есть в файле адреса ресурсов, которые необходимы для отображения (картинки, стили) имеют в себе адрес сайта, на котором они находились ранее. Не знаю чем Вы качали, но у того же Wget есть специальная опция, которая как раз сообщает программе что при скачивании сайта необходимо перезаписывать пути на относительные.
  
  Ответить
  1. Илья
    20.08.2023 в 15:59
    
    Это может быть из-за того что я делал это в Windows (посредством wayback_machine_downloader)?!
    
    Ответить
    1. Бидюков Денис
      20.08.2023 в 16:10
      
      Без разницы где. wayback_machine_downloader не изменяет пути к ресурсам. Чтобы сайт работал автономно, необходимо дополнительно обрабатывать скачанные файлы. Так если сайт функционирует, то зачем wayback_machine_downloader? Можно скачать сам сайт, а не его архив. Архив может содержать далеко не все. Я пробовал скачать свой сайт командой wget -r -k -l 7 -p -E -nc https://dampi.ru/ скачанная копия сайта работала автономно, но кое где попадаются абсолютные пути. Так что все равно пришлось бы дополнительно обрабатывать, заменяя абсолютные пути на относительные.
      
      Ответить
Илья
20.08.2023 в 16:34

Сейчас сайт не функционирует, только архив (https://web.archive.org)!

Ответить
1. Бидюков Денис
  20.08.2023 в 16:37
  
  Тогда скачивание и последующая правка. Я правил с помощью команды find. Тут главное правильно составить правило и она сама все файлы найдет и все что нужно заменит
  
  Ответить
Илья
20.08.2023 в 16:48

А теоретически или практически (не знаю), может такое быть что сейчас сайт автора не функционирует, и когда-либо и через web.archive.org также не будет функционировать?!

Ответить
1. Бидюков Денис
  20.08.2023 в 18:09
  
  Теоретически возмоэжно, когда владельцам вебархива надоест этим заниматься и они грохнут нахер все.
  
  Ответить
Илья
21.06.2024 в 18:28

Помогите скачать сайт, не понимаю откуда можно запустить ваш пхп скрипт. Попробовал через терминал в линуке, получаю ошибки, как выше в теме у человека.

Ответить
1. Бидюков Денис
  21.06.2024 в 18:35
  
  Да этому скрипту сто лет в обед. Чем не устраивает вариант с wayback_machine_downloader?
  
  Ответить
  1. Илья
    21.06.2024 в 18:48
    
    Я пока не в курсе других вариантов. Если вы про вариант:
    
    sudo apt install ruby
    sudo gem install wayback_machine_downloader
    
    То на дебиан 8 не устанавливается, большинство файлов не находится.
    
    Get:1 http://mirror.yandex.ru/debian/ jessie/main javascript-common all 11 [6,120 B]
    Err http://mirror.yandex.ru/debian/ jessie/main libjs-jquery all 1.7.2+dfsg-3.2
    404 Not Found [IP: 213.180.204.183 80]
    Err http://mirror.yandex.ru/debian/ jessie/main rubygems-integration all 1.8
    404 Not Found [IP: 213.180.204.183 80]
    Err http://mirror.yandex.ru/debian/ jessie/main ruby all 1:2.1.5+deb8u2
    404 Not Found [IP: 213.180.204.183 80]
    Err http://security.debian.org/ jessie/updates/main ruby2.1 amd64 2.1.5-2+deb8u6
    404 Not Found [IP: 151.101.130.132 80]
    
    Ответить
    1. Бидюков Денис
      22.06.2024 в 00:21
      
      Напишите мне куда-нибудь. Телеграм, ватсап что удобнее. Скачаем Вам сайт
      
      Ответить
Вова
21.07.2024 в 15:35

Добрый день. Результат скаченного сайта с помощью ‘wayback_machine_downloader’ одинаков, если получить с помощью ‘wget’? А то ‘wayback_machine_downloader’ ни чего не скачивает, ошибки типа Failed to open TCP connection и Connection timed out — user specified timeout.

Ответить
1. Бидюков Денис
  21.07.2024 в 16:30
  
  Результат будет отличаться, поскольку в архиве будет присутствовать все что было на сайте за историю его домена. А если wgetом качать, то скачается текущая версия сайта, то есть актуальная. Если конечно сайт доступен
  
  Ответить