
Пострадавшим от 3fn.ru посвящается.
Google Cache Dumper - это инструмент, позволяющий максимально просто вытащить все содержимое кеша Google по заданному домену.
Возможности:
- Ограничение количества обрабатываемых страниц выдачи, либо обработка всех, сколько есть.
- Задание интервала между запросами (в секундах)
- Адресация запросов разным датацентрам
- Поддержка работы через прокси и чередование запросов между произвольным количеством прокси.
Требования:
- Веб-сервер
- PHP5 с поддержкой curl и allow_url_fopen=On
Установка и настройка:
1) Распакуйте архив в папку веб-сервера (не обязательно в корень).
2) В той же папке должна быть подпапка out, доступная веб-серверу на чтение и запись (обычно подходят права доступа 0777).
3) Файлы index.php, dc.txt, proxy.txt должны быть доступны веб-серверу на чтение.
4) В файл proxy.txt поместите список прокси, которые будете использовать при парсинге, по одному прокси на строку, формат ip_адрес:порт.
ВНИМАНИЕ! Если оставить файл пустым, то проски использоваться не будет, но возрастет риск бана запросов со стороны Google.
5) Настройка завершена! Откройте скрипт через браузер и приступайте!
Стоимость: $2 (я же не зверь какой, скрипт несложный, стоит недорого)
Купить скрипт онлайн.
Bing Cache Dumper - это инструмент, позволяющий максимально просто вытащить все содержимое кеша поисковика Bing по заданному домену.
Возможности:
- Ограничение количества обрабатываемых страниц выдачи, либо обработка всех, сколько есть.
- Задание интервала между запросами (в секундах)
Требования:
- Веб-сервер
- PHP5 с allow_url_fopen=On
Установка и настройка:
1) Распакуйте архив в папку веб-сервера (не обязательно в корень).
2) В той же папке должна быть подпапка out, доступная веб-серверу на чтение и запись (обычно подходят права доступа 0777).
3) Настройка завершена! Откройте скрипт через браузер и приступайте!
Стоимость: $1 (этот скрипт еще проще, чем предыдущий)
Купить скрипт онлайн.
PS. Ну и небольшой подарок тем, кто сам умеет кодить и не хочет платить. Я уже публиковал первую версию Google Cache Dumper. В том виде, в каком она там есть она довольно легко попадает в бан, но доработать ее совсем несложно ;)
UPD. Актуальный список датацентров для Google Cache Dumper во вложении.
Прикрепленный файл | Размер |
---|---|
dc.txt | 2.88 кб |
привет, я разобрался, загрузил свежие dc с серча и проксиков парочку нашел еле живых.
у меня вопрос, где брать нормальные прокси? даже если за $ где купить чтобы не лоханутся, каким софтом чекать..
буду признателен если появиться такая инфа и не только я.. можно даже ссыль после поста поставить где и как что добывается.
Я уже довольно давно не отслеживаю этот вопрос, так что на том же серче вам лучше подскажут :)
Хороший скрипт, а как он обходит таймауты Гугла, мне через каждые 5 мегабайт скаченного кеша у Гошы, Айпи менять приходиться :(
Для этого он чередует запросы между разными датацентрами, а так же использует разные проки из списка, ему предоставленного.
Проблема с удалением адресов в proxy.php. О проблеме писали выше, если “Просто добавьте в proxy.txt несколько пустых строк”, но происходит следующее:
Msg #56: Proxy list updated
Msg #57: Requesting http://rutracker.org/
Msg #58: Trying proxy:
Msg #59: Trying proxy:
Msg #60: No luck, no proxy gave good result.
Msg #61: http://209.85.135.100/search?q=cache:http%3A%2F%2Frutracker.org%2F
Msg #62: Page http://rutracker.org/ saved to out/rutracker.org/rutracker.org// (0 bytes)
Msg #63: Proxy list updated
Проще говоря, без прокси не работает, а с прокси качает лишь страницы с ошибками. Какой выход?
В качетсве временной меры можно найти не паблик прокси, которые не забанены гуглом.
Чуть позже я попробую выяснить, в чем у вас была проблема.
Проверил, у меня рутрекер исправно парсится. Похоже, у вас проблема в прокси.
Msg #0: Parsing page list
Msg #1: Proxy list updated
Msg #2: Trying proxy: 61.152.96.35:808
Msg #3: http://google.com/search?q=site%3ASITE.RU&hl=en&num=50&tbs=cdr%3A1%2...
Msg #4: Parsing finished!
Msg #5: Starting downloading cache...
Msg #6: Dumping finished!
при других параметрах таже история. прокси покупные анонимные http, DC обновлен. В чем трабла?
Похоже, google в очередной раз изменил верстку страницы выдачи. Напишите мне на почту, чтобы я знал, куда высылать обновление. Поскольку вы не указали свой email в комментарии, чтобы я мог быть уверен, что вы - это вы, в письме назовите сервис, где покупали прокси, а я сверю это со своими наблюдениями.
отписал
Ок. Не позже субботы будет.
И мне тогда можно обновление? может наконец заработает. Мейл в строке коммента указан
Конечно.
я чегого то не пойму
скрипт рабочий или нет ? :(
я прикупил а папка пустая остаётся (
я не разобрался с датами - может не правильно указываю
Пришлите на почту лог работы скрипта
. У вас прокси точно рабочие?
понятно скрипт мёртвый (((((((
Прошу прощения за задержку с ответом, уже пятый день дома интернета нет.
Скорее всего, скрипт сломался из-за очередной смены дизайна гугла, сегодня вечером я сделаю обновление (если интернет таки появится) и вышлю вам исправленную версию на ящик, который вы указали в комментарии.
ок
жду ))
вопрос он как парсит сайт (из кеша)? с картинками или только текст и структура
Только текст и (по возможности) структура. Нормального способа достать картинки мне, к сожалению, не известно.
День добрый, у меня такая же ситуация
Msg #0: Parsing page list
Msg #1: Proxy list updated
Msg #2: Trying proxy: 112.216.50.242:80
Msg #3: http://google.com/search?q=site%3Abagserf.ru&hl=en&num=50
Msg #4: Parsing finished!
Msg #5: Starting downloading cache...
Msg #6: Dumping finished!
Прокси достал с закрытого сео клуба, проверил прогой Proxy,
DC обновил с вашего сайта (не пойму где еще искать).
В конце создает папку с одним файлом zero.txt
Это из-за смены верстки страницы гуглом. В ближайшее время сделаю апдейт.
Детально проверил все, дело не в верстке.
доступ по ftp к хосту, с которого запускаете скрипт.
Для проверки прокси в архиве есть файл testproxy.php, который проверяет список прокси из proxy.txt на работоспособность с гуглом. Многие прокси гугл просто банит из-за большого количества желающих через них парсить выдачу. Если и это не поможет, то пришлите мне на
отправил письмо с доступом
попробовал на другом хосте тоже самое не хотит работать (((
Ответил вам.
Здравствуйте, у меня скрипт не работает, ни с проксями, ни без.
Лог типа такого как у юзера выше:
Msg #0: Parsing page list
Msg #1: Proxy list updated
Msg #2: Trying proxy: 112.216.50.242:80
Msg #3: http://google.com/search?q=site%3Abagserf.ru&hl=en&num=50
Msg #4: Parsing finished!
Msg #5: Starting downloading cache...
Msg #6: Dumping finished!
В конце создает папку с одним файлом zero.txt
Мне не хватило десятка минут, чтобы залить в магазин исправленную версию. Я вам писал в Wm-кипер, но вы похоже не заметили. Высылаю исправленную версию на ваш email, указанный в комментарии.
Здравствуйте. А версии рабочие, up to date? можно покупать? Спасибо.
В принципе, да. Если возникнут проблемы - пишите на почту.
Было написано, что может работать без прокси, но без прокси не одна страница не загрузилась. хотя список урлов скрипт выташил и гугл не банит.
Это у меня проблема или скрипт всё таки без прокси не работает?
Алгоритмы бана для выдачи и кэша различаются. Возможно, дело именно в этом.
Отправить комментарий