Скрипты: Google Cache Dumper & Bing Cache Dumper

Alek$ сб, 06/06/2019 - 13:33

Пострадавшим от 3fn.ru посвящается.

UPD (22.01.2013): Две новости:

  1. оба скрипта более не продаются;
  2. теперь они распространяются бесплатно через GitHub ;-)

Google Cache Dumper v 3.0

Google Cache Dumper - это инструмент, позволяющий максимально просто вытащить все содержимое кеша Google по заданному домену.

Возможности:
- Ограничение количества обрабатываемых страниц выдачи, либо обработка всех, сколько есть.
- Задание интервала между запросами (в секундах)
- Адресация запросов разным датацентрам
- Поддержка работы через прокси и чередование запросов между произвольным количеством прокси.

Требования:
- Веб-сервер
- PHP5 с поддержкой curl и allow_url_fopen=On

Установка и настройка:
1) Распакуйте архив в папку веб-сервера (не обязательно в корень).
2) В той же папке должна быть подпапка out, доступная веб-серверу на чтение и запись (обычно подходят права доступа 0777).
3) Файлы index.php, dc.txt, proxy.txt должны быть доступны веб-серверу на чтение.
4) В файл proxy.txt поместите список прокси, которые будете использовать при парсинге, по одному прокси на строку, формат ip_адрес:порт.
ВНИМАНИЕ! Если оставить файл пустым, то проски использоваться не будет, но возрастет риск бана запросов со стороны Google.
5) Настройка завершена! Откройте скрипт через браузер и приступайте!

Лицензия: WTFPL.
GitHub (скачать последнюю версию).

Bing Cache Dumper v 1.0

Bing Cache Dumper - это инструмент, позволяющий максимально просто вытащить все содержимое кеша поисковика Bing по заданному домену.

Возможности:
- Ограничение количества обрабатываемых страниц выдачи, либо обработка всех, сколько есть.
- Задание интервала между запросами (в секундах)

Требования:
- Веб-сервер
- PHP5 с allow_url_fopen=On

Установка и настройка:
1) Распакуйте архив в папку веб-сервера (не обязательно в корень).
2) В той же папке должна быть подпапка out, доступная веб-серверу на чтение и запись (обычно подходят права доступа 0777).
3) Настройка завершена! Откройте скрипт через браузер и приступайте!

Лицензия: WTFPL.
GitHub (скачать последнюю версию).

PS. Ну и небольшой подарок тем, кто сам умеет кодить и не хочет платить. Я уже публиковал первую версию Google Cache Dumper. В том виде, в каком она там есть она довольно легко попадает в бан, но доработать ее совсем несложно ;)

UPD. Актуальный список датацентров для Google Cache Dumper во вложении.



Trackback URL for this post:

/trackback/333
Прикрепленный файл Размер
dc.txt 2.88 кб
Fedor пт, 12/06/2019 - 15:12

спасибо очень нужно было из кэша гугольного достать одну вещицу, все работает!

Alek$ пт, 12/06/2019 - 15:17

Пожалуйста!

Nadyunya вс, 21/06/2019 - 04:25

Было бы интересно у Яндекса есть что нибудь подобное для поиска информации из кэша это было бы очень кстати т.к Яндекс лучше сканирует русскоязычные сайты!?

Alek$ вс, 21/06/2019 - 11:20

Возможно, со временем я сделаю и такой скрипт, но у Яндекса кеш устроен гораздо сложнее и там есть некоторые проблемы.

roma ср, 24/06/2019 - 05:02

согласен пробовал недавно достать простые файлы из кэша у яндекса ни чего не вышло!?

Дмитрий чт, 25/06/2019 - 05:36

Согласен очень полезный хак!

Интернетчик пн, 13/07/2019 - 04:39

Пытаюсь из принципа доработать бесплатную версию... Пока туплю но кажется уже понял как это работает )))

Alek$ вт, 14/07/2019 - 18:37
Удачи :)
Дмитрий сб, 03/04/2020 - 03:18

Купили у вас скрипт всё работает но есть такой вопрос что в коде поправить чтобы задавать просто номер страницы которую бы он парсил - кпримеру мне надо отпарсить 1 отдельно потом 2 ую отдельно и так далее

Alek$ сб, 03/04/2020 - 22:25

Если кратко, то надо добавить новое поле в форму и в строке, где задается переменная $url добавить параметр &start=XX

kavelin чт, 15/04/2020 - 17:14

Скрипт, работает, спасибо. Но если не завести в proxy.txt прокси, то ругается:

Warning: Division by zero in Z:\home\utils\www\google-cache\index.php on line 173
Msg #123: Proxy list updated

Warning: Division by zero in Z:\home\utils\www\google-cache\index.php on line 187
Msg #124: Requesting http://***.htm via

Warning: Division by zero in Z:\home\utils\www\google-cache\index.php on line 188
Msg #125: Page http://***.htm saved to ...

Alek$ чт, 15/04/2020 - 17:21

Просто добавьте в proxy.txt несколько пустых строк.

kavelin чт, 15/04/2020 - 18:27

Понял, теперь вроде все путем.

rio вт, 20/04/2020 - 16:01

Купил Google Cache Dumper v 3.0. Поставил под денвером. Не пашет :(
В папке out создает папки с именем домена который пытаемся восстановить из кеша. Но папки пустые.
После обработки выдает "Fatal error: Call to undefined function curl_init() in Z:\home\tools\www\index.php on line 113"

Alek$ вт, 20/04/2020 - 21:17

Установите расширение curl

rio ср, 21/04/2020 - 13:31

После установки расширения curl, все прекрасно работает. Спасибо!

msg ср, 08/12/2020 - 06:06

Купил, вроде бы работает, но парсит очень маленький процент. Подавляющее большинство страниц содержат: "You are trying to use a node of the CoDeeN CDN Network. While the Host header is generally optional for HTTP, it is required for CoDeeN. Furthermore, numerical hostnames are not allowed. Please add this header and try again."

или

"You are trying to use a node of the CoDeeN CDN Network. Numerical hostnames are not allowed."

Для парсинга использую около 150 отборных, свежепрочеканных прокси, (для примера, другой скрипт через эти прокси парсит с гугла базу в 10К урлов за 3 мин.)

может посмотрите, что можно поправить

Alek$ ср, 08/12/2020 - 10:53
Вообще говоря, эти прокси принадлежат одной известной Content Delivery Network по имени CoDeeN и известны достаточно жесткими ограничениями на идущий через них трафик. Объясняются эти ограничения тем, что единственная цель этих прокси - кешировать статические данные с разных сайтов, чтобы ускорить серфинг. Поскольку все нормальные люди обращаются к сайтам через доменное имя, а не по ip адресу, то они запрещают трафик, идущий напрямую по ip. В то же время, один из важных механизмов в GCD, улучшающий качество парсинга - это отправка запросов в разные датацентры google, что можно сделать только обращаясь по ip адресу. Вы можете отключить этот механизм, положив в dc.txt одну строчку - google.com, но тогда это может ускорить срабатывание антибот-защиты. Другой вариант - найти нормальные обычные прокси без дурацких ограничений.
msg ср, 08/12/2020 - 19:12

по поводу ДЦ, я еще вчера так пробовал, менял и на google.com и на webcache.googleusercontent.com - без толку.
По поводу прокси - это и есть нормальные прокси, которые берутся из огромного количества паблик мест, а потом чекаются.
Возникает тогда вопрос - если прокси плохие, как же другой парсер(Hrefer) через них из того же гугла вытаскивает за 3 минуты базу в 10К урлов, а за пару часов 100К и более?
Может я вам дам список протестить и дело не в них?

Alek$ ср, 08/12/2020 - 21:54

Фраза "You are trying to use a node of the CoDeeN CDN Network. Numerical hostnames are not allowed." переводится как "Вы пытаетесь использовать узел сети CoDeeN CDN. Численные имена хостов не разрешаются". Это означает, что данные конкретные прокси запрещают обращаться через них к сайтам по IP.

hrefer видимо обращается по домену и они его пропускают, либо применяет какие-то хаки, которые дурят фильтры на этих прокси-серверах, которые мне, к сожалению, не известны.

То, что КоДиНовские прокси часто светятся в списках паблик прокси - это факт, то что чеки они тоже нормально проходят - тоже факт, но это не значит, что это полнофункциональный прокси. Как правило, эта проверка заключается в том, что от прокси удалось получить какой-то внятный ответ и такие прокси обычно его проходят. Но вот при активном парсинге поблемы лезут из разных углов.

Если хотите, можете прислать мне ваш список прокси и я попробую что-нибудь сделать, но большого оптимизма я на эту тему не испытываю.

msg чт, 09/12/2020 - 01:20

отправил на почту

Dmitry пн, 24/01/2021 - 19:47

Добрый день. Актуальны сейчас на данный момент оба скрипта? работают норм ?

Alek$ сб, 29/01/2021 - 19:49

Google Cache Dumper - актуален, недавно сам проверял. Единственное, что надо проверить - это актуальность списка датацентров и прокси, которые идут в комплекте.
Bing Cache Dumper тоже должен работать, насколько мне известно, однако лично я его уже давно не использовал за ненадобностью.

kavelin чт, 17/03/2021 - 14:14

Alek$, как можно получить апдейт дампера для гугла - покупал его где-то год назад... Если что - можно сразу на мыло, спасибо.

Alek$ чт, 17/03/2021 - 18:08

Отправил.

kavelin чт, 17/03/2021 - 21:56

Благодарю - получил. Договорить подправить кое то можно? Для привата или для паблика, на разных условиях.

Alek$ чт, 17/03/2021 - 22:22

По причине недостатка времени, к сожалению, я за доработки не возьмусь.

wlad2 пн, 28/03/2021 - 18:34

купил скрипт, пробую запустить с папки /***/ но ничего не работает?
можно только с домена с корня запускать?

Alek$ вт, 29/03/2021 - 15:40

«Ничего не работает» - это как конкретно? Что пишет, список прокси и датацентров актуальные?

Alek$ вт, 29/03/2021 - 15:43

Можете прислать адрес, где установлен скрипт, и подробности о проблеме на почту, если общение в комментариях вам менее удобно.



Отправить комментарий

CAPTCHA
Вы точно не бот?
15 + 7 =
Without JavaScript you won't pass captcha test, sorry. Solve this simple math problem and enter the result. E.g. for 1+3, enter 4.