Скрипты: Google Cache Dumper & Bing Cache Dumper

Alek$ сб, 06/06/2019 - 13:33

Пострадавшим от 3fn.ru посвящается.

Google Cache Dumper v 3.0

Google Cache Dumper - это инструмент, позволяющий максимально просто вытащить все содержимое кеша Google по заданному домену.

Возможности:
- Ограничение количества обрабатываемых страниц выдачи, либо обработка всех, сколько есть.
- Задание интервала между запросами (в секундах)
- Адресация запросов разным датацентрам
- Поддержка работы через прокси и чередование запросов между произвольным количеством прокси.

Требования:
- Веб-сервер
- PHP5 с поддержкой curl и allow_url_fopen=On

Установка и настройка:
1) Распакуйте архив в папку веб-сервера (не обязательно в корень).
2) В той же папке должна быть подпапка out, доступная веб-серверу на чтение и запись (обычно подходят права доступа 0777).
3) Файлы index.php, dc.txt, proxy.txt должны быть доступны веб-серверу на чтение.
4) В файл proxy.txt поместите список прокси, которые будете использовать при парсинге, по одному прокси на строку, формат ip_адрес:порт.
ВНИМАНИЕ! Если оставить файл пустым, то проски использоваться не будет, но возрастет риск бана запросов со стороны Google.
5) Настройка завершена! Откройте скрипт через браузер и приступайте!

Стоимость: $2 (я же не зверь какой, скрипт несложный, стоит недорого)
Купить скрипт онлайн.

Bing Cache Dumper v 1.0

Bing Cache Dumper - это инструмент, позволяющий максимально просто вытащить все содержимое кеша поисковика Bing по заданному домену.

Возможности:
- Ограничение количества обрабатываемых страниц выдачи, либо обработка всех, сколько есть.
- Задание интервала между запросами (в секундах)

Требования:
- Веб-сервер
- PHP5 с allow_url_fopen=On

Установка и настройка:
1) Распакуйте архив в папку веб-сервера (не обязательно в корень).
2) В той же папке должна быть подпапка out, доступная веб-серверу на чтение и запись (обычно подходят права доступа 0777).
3) Настройка завершена! Откройте скрипт через браузер и приступайте!

Стоимость: $1 (этот скрипт еще проще, чем предыдущий)
Купить скрипт онлайн.

PS. Ну и небольшой подарок тем, кто сам умеет кодить и не хочет платить. Я уже публиковал первую версию Google Cache Dumper. В том виде, в каком она там есть она довольно легко попадает в бан, но доработать ее совсем несложно ;)

UPD. Актуальный список датацентров для Google Cache Dumper во вложении.



Trackback URL for this post:

/trackback/333
Прикрепленный файл Размер
dc.txt 2.88 кб
wlad2 ср, 06/04/2021 - 18:37

привет, я разобрался, загрузил свежие dc с серча и проксиков парочку нашел еле живых.
у меня вопрос, где брать нормальные прокси? даже если за $ где купить чтобы не лоханутся, каким софтом чекать..
буду признателен если появиться такая инфа и не только я.. можно даже ссыль после поста поставить где и как что добывается.

Alek$ ср, 06/04/2021 - 23:01

Я уже довольно давно не отслеживаю этот вопрос, так что на том же серче вам лучше подскажут :)

Пономаревъ сб, 23/04/2021 - 18:37

Хороший скрипт, а как он обходит таймауты Гугла, мне через каждые 5 мегабайт скаченного кеша у Гошы, Айпи менять приходиться :(

Alek$ сб, 23/04/2021 - 21:37

Для этого он чередует запросы между разными датацентрами, а так же использует разные проки из списка, ему предоставленного.

dsd пн, 25/04/2021 - 01:39

Проблема с удалением адресов в proxy.php. О проблеме писали выше, если “Просто добавьте в proxy.txt несколько пустых строк”, но происходит следующее:
Msg #56: Proxy list updated
Msg #57: Requesting http://rutracker.org/
Msg #58: Trying proxy:
Msg #59: Trying proxy:
Msg #60: No luck, no proxy gave good result.
Msg #61: http://209.85.135.100/search?q=cache:http%3A%2F%2Frutracker.org%2F
Msg #62: Page http://rutracker.org/ saved to out/rutracker.org/rutracker.org// (0 bytes)
Msg #63: Proxy list updated
Проще говоря, без прокси не работает, а с прокси качает лишь страницы с ошибками. Какой выход?

Alek$ пн, 25/04/2021 - 19:25

В качетсве временной меры можно найти не паблик прокси, которые не забанены гуглом.
Чуть позже я попробую выяснить, в чем у вас была проблема.

Alek$ чт, 28/04/2021 - 23:19

Проверил, у меня рутрекер исправно парсится. Похоже, у вас проблема в прокси.

Гость ср, 27/04/2021 - 06:32

Msg #0: Parsing page list
Msg #1: Proxy list updated
Msg #2: Trying proxy: 61.152.96.35:808
Msg #3: http://google.com/search?q=site%3ASITE.RU&hl=en&num=50&tbs=cdr%3A1%2...
Msg #4: Parsing finished!
Msg #5: Starting downloading cache...
Msg #6: Dumping finished!

при других параметрах таже история. прокси покупные анонимные http, DC обновлен. В чем трабла?

Alek$ ср, 27/04/2021 - 11:14

Похоже, google в очередной раз изменил верстку страницы выдачи. Напишите мне на почту, чтобы я знал, куда высылать обновление. Поскольку вы не указали свой email в комментарии, чтобы я мог быть уверен, что вы - это вы, в письме назовите сервис, где покупали прокси, а я сверю это со своими наблюдениями.

Гость ср, 27/04/2021 - 13:54

отписал

Alek$ чт, 28/04/2021 - 15:58

Ок. Не позже субботы будет.

dsd ср, 27/04/2021 - 19:43

И мне тогда можно обновление? может наконец заработает. Мейл в строке коммента указан

Alek$ чт, 28/04/2021 - 15:58

Конечно.

Гость чт, 07/07/2021 - 07:13

я чегого то не пойму
скрипт рабочий или нет ? :(
я прикупил а папка пустая остаётся (

я не разобрался с датами - может не правильно указываю

Alek$ чт, 21/07/2021 - 13:56

Пришлите на почту лог работы скрипта . У вас прокси точно рабочие?

Гость сб, 09/07/2021 - 22:35

понятно скрипт мёртвый (((((((

Alek$ пн, 11/07/2021 - 09:00

Прошу прощения за задержку с ответом, уже пятый день дома интернета нет.
Скорее всего, скрипт сломался из-за очередной смены дизайна гугла, сегодня вечером я сделаю обновление (если интернет таки появится) и вышлю вам исправленную версию на ящик, который вы указали в комментарии.

Гость вт, 12/07/2021 - 04:57

ок
жду ))
вопрос он как парсит сайт (из кеша)? с картинками или только текст и структура

Alek$ вт, 12/07/2021 - 09:03

Только текст и (по возможности) структура. Нормального способа достать картинки мне, к сожалению, не известно.

Гость вт, 19/07/2021 - 10:43

День добрый, у меня такая же ситуация

Msg #0: Parsing page list
Msg #1: Proxy list updated
Msg #2: Trying proxy: 112.216.50.242:80
Msg #3: http://google.com/search?q=site%3Abagserf.ru&hl=en&num=50
Msg #4: Parsing finished!
Msg #5: Starting downloading cache...
Msg #6: Dumping finished!

Прокси достал с закрытого сео клуба, проверил прогой Proxy,
DC обновил с вашего сайта (не пойму где еще искать).

В конце создает папку с одним файлом zero.txt

Alek$ вт, 19/07/2021 - 10:47

Это из-за смены верстки страницы гуглом. В ближайшее время сделаю апдейт.

Alek$ чт, 21/07/2021 - 13:53

Детально проверил все, дело не в верстке.
Для проверки прокси в архиве есть файл testproxy.php, который проверяет список прокси из proxy.txt на работоспособность с гуглом. Многие прокси гугл просто банит из-за большого количества желающих через них парсить выдачу. Если и это не поможет, то пришлите мне на доступ по ftp к хосту, с которого запускаете скрипт.

Гость вс, 24/07/2021 - 22:03

отправил письмо с доступом
попробовал на другом хосте тоже самое не хотит работать (((

Alek$ вс, 24/07/2021 - 22:10

Ответил вам.

balcon пн, 05/09/2021 - 22:54

Здравствуйте, у меня скрипт не работает, ни с проксями, ни без.

Лог типа такого как у юзера выше:

Msg #0: Parsing page list
Msg #1: Proxy list updated
Msg #2: Trying proxy: 112.216.50.242:80
Msg #3: http://google.com/search?q=site%3Abagserf.ru&hl=en&num=50
Msg #4: Parsing finished!
Msg #5: Starting downloading cache...
Msg #6: Dumping finished!

В конце создает папку с одним файлом zero.txt

Alek$ вт, 06/09/2021 - 13:35

Мне не хватило десятка минут, чтобы залить в магазин исправленную версию. Я вам писал в Wm-кипер, но вы похоже не заметили. Высылаю исправленную версию на ваш email, указанный в комментарии.

golan вт, 01/11/2021 - 05:16

Здравствуйте. А версии рабочие, up to date? можно покупать? Спасибо.

Alek$ пт, 04/11/2021 - 21:21

В принципе, да. Если возникнут проблемы - пишите на почту.

Олег сб, 12/11/2021 - 01:43

Было написано, что может работать без прокси, но без прокси не одна страница не загрузилась. хотя список урлов скрипт выташил и гугл не банит.
Это у меня проблема или скрипт всё таки без прокси не работает?

Alek$ вс, 13/11/2021 - 15:27

Алгоритмы бана для выдачи и кэша различаются. Возможно, дело именно в этом.



Отправить комментарий

CAPTCHA
Вы точно не бот?
4 + 5 =
Without JavaScript you won't pass captcha test, sorry. Solve this simple math problem and enter the result. E.g. for 1+3, enter 4.