![RSS лента комментариев к "Скрипты: Google Cache Dumper & Bing Cache Dumper" RSS-материал](/misc/feed.png)
Пострадавшим от 3fn.ru посвящается.
UPD (22.01.2013): Две новости:
Google Cache Dumper - это инструмент, позволяющий максимально просто вытащить все содержимое кеша Google по заданному домену.
Возможности:
- Ограничение количества обрабатываемых страниц выдачи, либо обработка всех, сколько есть.
- Задание интервала между запросами (в секундах)
- Адресация запросов разным датацентрам
- Поддержка работы через прокси и чередование запросов между произвольным количеством прокси.
Требования:
- Веб-сервер
- PHP5 с поддержкой curl и allow_url_fopen=On
Установка и настройка:
1) Распакуйте архив в папку веб-сервера (не обязательно в корень).
2) В той же папке должна быть подпапка out, доступная веб-серверу на чтение и запись (обычно подходят права доступа 0777).
3) Файлы index.php, dc.txt, proxy.txt должны быть доступны веб-серверу на чтение.
4) В файл proxy.txt поместите список прокси, которые будете использовать при парсинге, по одному прокси на строку, формат ip_адрес:порт.
ВНИМАНИЕ! Если оставить файл пустым, то проски использоваться не будет, но возрастет риск бана запросов со стороны Google.
5) Настройка завершена! Откройте скрипт через браузер и приступайте!
Лицензия: WTFPL.
GitHub (скачать последнюю версию).
Bing Cache Dumper - это инструмент, позволяющий максимально просто вытащить все содержимое кеша поисковика Bing по заданному домену.
Возможности:
- Ограничение количества обрабатываемых страниц выдачи, либо обработка всех, сколько есть.
- Задание интервала между запросами (в секундах)
Требования:
- Веб-сервер
- PHP5 с allow_url_fopen=On
Установка и настройка:
1) Распакуйте архив в папку веб-сервера (не обязательно в корень).
2) В той же папке должна быть подпапка out, доступная веб-серверу на чтение и запись (обычно подходят права доступа 0777).
3) Настройка завершена! Откройте скрипт через браузер и приступайте!
Лицензия: WTFPL.
GitHub (скачать последнюю версию).
PS. Ну и небольшой подарок тем, кто сам умеет кодить и не хочет платить. Я уже публиковал первую версию Google Cache Dumper. В том виде, в каком она там есть она довольно легко попадает в бан, но доработать ее совсем несложно ;)
UPD. Актуальный список датацентров для Google Cache Dumper во вложении.
Прикрепленный файл | Размер |
---|---|
dc.txt | 2.88 кб |
А реально этим скриптом вытащить 600 000 страниц? сколько времени на это уйдет?
600 000 - вряд ли. Как минимум в силу однопоточности скрипта.
Почему-то не получается спарсить кеш гугла. Лог:
Msg #0: Parsing page list
Msg #1: Proxy list updated
Msg #2: Trying proxy: 218.207.217.237:80
Msg #3: http://google.com/search?q=site%3Aимясайта.com&hl=en&num=50&tbs=cdr%3A1%2Ccd_min%3A01%2F01%2F2007%2Ccd_max%3A11%2F26%2F2011
Msg #4: Parsing finished!
Msg #5: Starting downloading cache...
Msg #6: Dumping finished!
В индексе 1200 страниц.
Что делаю не так?
В папке out один пустой файл zero.
На е-мейл никто не ответил.
У меня парсинг работает. Вы уверены, что у вас прокси работоспособные? В архиве есть специальный скрипт testproxy.php, который поможет вам это проверить. Письма вашего не нашел, на какой адрес и с какого писали?
Тоже самое, пробовал и с проксями, и без... ((( автор подскажи пожалуйста
Прокси где брали?
Покупал, да и без проксей пробовал, то же самое ...
Зависит от того, где покупали. У меня - парсит.
Можете мне прислать на почту домен, который парсите, и лог работы скрипта.
Можно мне получить обновления скрипта, если такое есть, купил сегодня, но тоже не смог спарсить ничего, прокси проверял, вставлял в ИЕ8.
Купил на торговой площадке Плати.Ру
И еще список дата центров дайте или подскажите где актуальный скачать.
Купил вчера, парсер не пашет
лог такой Msg #26: Parsing finished!
Msg #27: Starting downloading cache...
Msg #28: Proxy list updated
Warning: parse_url(/url?q=http://rsvmoto.ru/scooter/scooter-accessories&sa=U&ei=fB-dT_ehBM7TiAKTtvWWAQ&ved=0CBMQFjAB&usg=AFQjCNFZ73ndDYet1C8bVk87vTfZl6nX7g) [function.parse-url]: Unable to parse URL in /home/users1/m/magic/domains/site.ru/111/index.php on line 239
Msg #29: Requesting /url?q=http://rsvmoto.ru/scooter/scooter-accessories&sa=U&ei=fB-dT_ehBM7TiAKTtvWWAQ&ved=0CBMQFjAB&usg=AFQjCNFZ73ndDYet1C8bVk87vTfZl6nX7g
так же бывает что ошибки идут через 1 урл , в этом случае в папке создается 2 файла zero.txt (размер 0), index без окончания (видимо сюда скрипт парсит, но как потм этот файл разбить на страници и правильно их назвать ????)
Видимо, что-то очередной раз поменялось у гугла. Не беда, поправим, ждите апдейтов. Почта у вас в комментарии правильная указана?
Проверяйте почу, выслал Вам апдейт.
не могу капить пишет продавец заблокирован
как купить Google Cache Dumper v 3.0
Вот наш ответ вражеским проискам :-)
Отправить комментарий