Скрипты: Google Cache Dumper & Bing Cache Dumper

Alek$ сб, 06/06/2019 - 13:33

Пострадавшим от 3fn.ru посвящается.

UPD (22.01.2013): Две новости:

  1. оба скрипта более не продаются;
  2. теперь они распространяются бесплатно через GitHub ;-)

Google Cache Dumper v 3.0

Google Cache Dumper - это инструмент, позволяющий максимально просто вытащить все содержимое кеша Google по заданному домену.

Возможности:
- Ограничение количества обрабатываемых страниц выдачи, либо обработка всех, сколько есть.
- Задание интервала между запросами (в секундах)
- Адресация запросов разным датацентрам
- Поддержка работы через прокси и чередование запросов между произвольным количеством прокси.

Требования:
- Веб-сервер
- PHP5 с поддержкой curl и allow_url_fopen=On

Установка и настройка:
1) Распакуйте архив в папку веб-сервера (не обязательно в корень).
2) В той же папке должна быть подпапка out, доступная веб-серверу на чтение и запись (обычно подходят права доступа 0777).
3) Файлы index.php, dc.txt, proxy.txt должны быть доступны веб-серверу на чтение.
4) В файл proxy.txt поместите список прокси, которые будете использовать при парсинге, по одному прокси на строку, формат ip_адрес:порт.
ВНИМАНИЕ! Если оставить файл пустым, то проски использоваться не будет, но возрастет риск бана запросов со стороны Google.
5) Настройка завершена! Откройте скрипт через браузер и приступайте!

Лицензия: WTFPL.
GitHub (скачать последнюю версию).

Bing Cache Dumper v 1.0

Bing Cache Dumper - это инструмент, позволяющий максимально просто вытащить все содержимое кеша поисковика Bing по заданному домену.

Возможности:
- Ограничение количества обрабатываемых страниц выдачи, либо обработка всех, сколько есть.
- Задание интервала между запросами (в секундах)

Требования:
- Веб-сервер
- PHP5 с allow_url_fopen=On

Установка и настройка:
1) Распакуйте архив в папку веб-сервера (не обязательно в корень).
2) В той же папке должна быть подпапка out, доступная веб-серверу на чтение и запись (обычно подходят права доступа 0777).
3) Настройка завершена! Откройте скрипт через браузер и приступайте!

Лицензия: WTFPL.
GitHub (скачать последнюю версию).

PS. Ну и небольшой подарок тем, кто сам умеет кодить и не хочет платить. Я уже публиковал первую версию Google Cache Dumper. В том виде, в каком она там есть она довольно легко попадает в бан, но доработать ее совсем несложно ;)

UPD. Актуальный список датацентров для Google Cache Dumper во вложении.



Trackback URL for this post:

/trackback/333
Прикрепленный файл Размер
dc.txt 2.88 кб
Артур пн, 21/11/2021 - 02:51

А реально этим скриптом вытащить 600 000 страниц? сколько времени на это уйдет?

Alek$ вт, 22/11/2021 - 14:29

600 000 - вряд ли. Как минимум в силу однопоточности скрипта.

Гость вс, 27/11/2021 - 18:04

Почему-то не получается спарсить кеш гугла. Лог:

Msg #0: Parsing page list
Msg #1: Proxy list updated
Msg #2: Trying proxy: 218.207.217.237:80
Msg #3: http://google.com/search?q=site%3Aимясайта.com&hl=en&num=50&tbs=cdr%3A1%2Ccd_min%3A01%2F01%2F2007%2Ccd_max%3A11%2F26%2F2011
Msg #4: Parsing finished!
Msg #5: Starting downloading cache...
Msg #6: Dumping finished!

В индексе 1200 страниц.
Что делаю не так?
В папке out один пустой файл zero.
На е-мейл никто не ответил.

Alek$ вс, 27/11/2021 - 23:25

У меня парсинг работает. Вы уверены, что у вас прокси работоспособные? В архиве есть специальный скрипт testproxy.php, который поможет вам это проверить. Письма вашего не нашел, на какой адрес и с какого писали?

Гость чт, 12/04/2022 - 15:41

Тоже самое, пробовал и с проксями, и без... ((( автор подскажи пожалуйста

Alek$ чт, 12/04/2022 - 17:39

Прокси где брали?

Гость сб, 14/04/2022 - 06:34

Покупал, да и без проксей пробовал, то же самое ...

Alek$ сб, 14/04/2022 - 16:32

Зависит от того, где покупали. У меня - парсит.

Alek$ сб, 14/04/2022 - 16:33

Можете мне прислать на почту домен, который парсите, и лог работы скрипта.

Mikh пт, 27/04/2022 - 23:00

Можно мне получить обновления скрипта, если такое есть, купил сегодня, но тоже не смог спарсить ничего, прокси проверял, вставлял в ИЕ8.
Купил на торговой площадке Плати.Ру
И еще список дата центров дайте или подскажите где актуальный скачать.

zik вс, 29/04/2022 - 18:05

Купил вчера, парсер не пашет

лог такой Msg #26: Parsing finished!
Msg #27: Starting downloading cache...
Msg #28: Proxy list updated

Warning: parse_url(/url?q=http://rsvmoto.ru/scooter/scooter-accessories&sa=U&ei=fB-dT_ehBM7TiAKTtvWWAQ&ved=0CBMQFjAB&usg=AFQjCNFZ73ndDYet1C8bVk87vTfZl6nX7g) [function.parse-url]: Unable to parse URL in /home/users1/m/magic/domains/site.ru/111/index.php on line 239
Msg #29: Requesting /url?q=http://rsvmoto.ru/scooter/scooter-accessories&sa=U&ei=fB-dT_ehBM7TiAKTtvWWAQ&ved=0CBMQFjAB&usg=AFQjCNFZ73ndDYet1C8bVk87vTfZl6nX7g

так же бывает что ошибки идут через 1 урл , в этом случае в папке создается 2 файла zero.txt (размер 0), index без окончания (видимо сюда скрипт парсит, но как потм этот файл разбить на страници и правильно их назвать ????)

Alek$ вс, 29/04/2022 - 18:12

Видимо, что-то очередной раз поменялось у гугла. Не беда, поправим, ждите апдейтов. Почта у вас в комментарии правильная указана?

Alek$ вс, 29/04/2022 - 22:21

Проверяйте почу, выслал Вам апдейт.

Гость пн, 21/01/2023 - 17:26

не могу капить пишет продавец заблокирован
как купить Google Cache Dumper v 3.0

Alek$ вт, 22/01/2023 - 12:38

Вот наш ответ вражеским проискам :-)



Отправить комментарий

CAPTCHA
Вы точно не бот?
13 + 6 =
Without JavaScript you won't pass captcha test, sorry. Solve this simple math problem and enter the result. E.g. for 1+3, enter 4.