Пострадавшим от 3fn.ru посвящается.
UPD (22.01.2013): Две новости:
Google Cache Dumper - это инструмент, позволяющий максимально просто вытащить все содержимое кеша Google по заданному домену.
Возможности:
- Ограничение количества обрабатываемых страниц выдачи, либо обработка всех, сколько есть.
- Задание интервала между запросами (в секундах)
- Адресация запросов разным датацентрам
- Поддержка работы через прокси и чередование запросов между произвольным количеством прокси.
Требования:
- Веб-сервер
- PHP5 с поддержкой curl и allow_url_fopen=On
Установка и настройка:
1) Распакуйте архив в папку веб-сервера (не обязательно в корень).
2) В той же папке должна быть подпапка out, доступная веб-серверу на чтение и запись (обычно подходят права доступа 0777).
3) Файлы index.php, dc.txt, proxy.txt должны быть доступны веб-серверу на чтение.
4) В файл proxy.txt поместите список прокси, которые будете использовать при парсинге, по одному прокси на строку, формат ip_адрес:порт.
ВНИМАНИЕ! Если оставить файл пустым, то проски использоваться не будет, но возрастет риск бана запросов со стороны Google.
5) Настройка завершена! Откройте скрипт через браузер и приступайте!
Лицензия: WTFPL.
GitHub (скачать последнюю версию).
Bing Cache Dumper - это инструмент, позволяющий максимально просто вытащить все содержимое кеша поисковика Bing по заданному домену.
Возможности:
- Ограничение количества обрабатываемых страниц выдачи, либо обработка всех, сколько есть.
- Задание интервала между запросами (в секундах)
Требования:
- Веб-сервер
- PHP5 с allow_url_fopen=On
Установка и настройка:
1) Распакуйте архив в папку веб-сервера (не обязательно в корень).
2) В той же папке должна быть подпапка out, доступная веб-серверу на чтение и запись (обычно подходят права доступа 0777).
3) Настройка завершена! Откройте скрипт через браузер и приступайте!
Лицензия: WTFPL.
GitHub (скачать последнюю версию).
PS. Ну и небольшой подарок тем, кто сам умеет кодить и не хочет платить. Я уже публиковал первую версию Google Cache Dumper. В том виде, в каком она там есть она довольно легко попадает в бан, но доработать ее совсем несложно ;)
UPD. Актуальный список датацентров для Google Cache Dumper во вложении.
Прикрепленный файл | Размер |
---|---|
dc.txt | 2.88 кб |
спасибо очень нужно было из кэша гугольного достать одну вещицу, все работает!
Пожалуйста!
Было бы интересно у Яндекса есть что нибудь подобное для поиска информации из кэша это было бы очень кстати т.к Яндекс лучше сканирует русскоязычные сайты!?
Возможно, со временем я сделаю и такой скрипт, но у Яндекса кеш устроен гораздо сложнее и там есть некоторые проблемы.
согласен пробовал недавно достать простые файлы из кэша у яндекса ни чего не вышло!?
Согласен очень полезный хак!
Пытаюсь из принципа доработать бесплатную версию... Пока туплю но кажется уже понял как это работает )))
Купили у вас скрипт всё работает но есть такой вопрос что в коде поправить чтобы задавать просто номер страницы которую бы он парсил - кпримеру мне надо отпарсить 1 отдельно потом 2 ую отдельно и так далее
Если кратко, то надо добавить новое поле в форму и в строке, где задается переменная $url добавить параметр &start=XX
Скрипт, работает, спасибо. Но если не завести в proxy.txt прокси, то ругается:
Warning: Division by zero in Z:\home\utils\www\google-cache\index.php on line 173
Msg #123: Proxy list updated
Warning: Division by zero in Z:\home\utils\www\google-cache\index.php on line 187
Msg #124: Requesting http://***.htm via
Warning: Division by zero in Z:\home\utils\www\google-cache\index.php on line 188
Msg #125: Page http://***.htm saved to ...
Просто добавьте в proxy.txt несколько пустых строк.
Понял, теперь вроде все путем.
Купил Google Cache Dumper v 3.0. Поставил под денвером. Не пашет :(
В папке out создает папки с именем домена который пытаемся восстановить из кеша. Но папки пустые.
После обработки выдает "Fatal error: Call to undefined function curl_init() in Z:\home\tools\www\index.php on line 113"
Установите расширение curl
После установки расширения curl, все прекрасно работает. Спасибо!
Купил, вроде бы работает, но парсит очень маленький процент. Подавляющее большинство страниц содержат: "You are trying to use a node of the CoDeeN CDN Network. While the Host header is generally optional for HTTP, it is required for CoDeeN. Furthermore, numerical hostnames are not allowed. Please add this header and try again."
или
"You are trying to use a node of the CoDeeN CDN Network. Numerical hostnames are not allowed."
Для парсинга использую около 150 отборных, свежепрочеканных прокси, (для примера, другой скрипт через эти прокси парсит с гугла базу в 10К урлов за 3 мин.)
может посмотрите, что можно поправить
по поводу ДЦ, я еще вчера так пробовал, менял и на google.com и на webcache.googleusercontent.com - без толку.
По поводу прокси - это и есть нормальные прокси, которые берутся из огромного количества паблик мест, а потом чекаются.
Возникает тогда вопрос - если прокси плохие, как же другой парсер(Hrefer) через них из того же гугла вытаскивает за 3 минуты базу в 10К урлов, а за пару часов 100К и более?
Может я вам дам список протестить и дело не в них?
Фраза "You are trying to use a node of the CoDeeN CDN Network. Numerical hostnames are not allowed." переводится как "Вы пытаетесь использовать узел сети CoDeeN CDN. Численные имена хостов не разрешаются". Это означает, что данные конкретные прокси запрещают обращаться через них к сайтам по IP.
hrefer видимо обращается по домену и они его пропускают, либо применяет какие-то хаки, которые дурят фильтры на этих прокси-серверах, которые мне, к сожалению, не известны.
То, что КоДиНовские прокси часто светятся в списках паблик прокси - это факт, то что чеки они тоже нормально проходят - тоже факт, но это не значит, что это полнофункциональный прокси. Как правило, эта проверка заключается в том, что от прокси удалось получить какой-то внятный ответ и такие прокси обычно его проходят. Но вот при активном парсинге поблемы лезут из разных углов.
Если хотите, можете прислать мне ваш список прокси и я попробую что-нибудь сделать, но большого оптимизма я на эту тему не испытываю.
отправил на почту
Добрый день. Актуальны сейчас на данный момент оба скрипта? работают норм ?
Google Cache Dumper - актуален, недавно сам проверял. Единственное, что надо проверить - это актуальность списка датацентров и прокси, которые идут в комплекте.
Bing Cache Dumper тоже должен работать, насколько мне известно, однако лично я его уже давно не использовал за ненадобностью.
Alek$, как можно получить апдейт дампера для гугла - покупал его где-то год назад... Если что - можно сразу на мыло, спасибо.
Отправил.
Благодарю - получил. Договорить подправить кое то можно? Для привата или для паблика, на разных условиях.
По причине недостатка времени, к сожалению, я за доработки не возьмусь.
купил скрипт, пробую запустить с папки /***/ но ничего не работает?
можно только с домена с корня запускать?
«Ничего не работает» - это как конкретно? Что пишет, список прокси и датацентров актуальные?
Можете прислать адрес, где установлен скрипт, и подробности о проблеме на почту, если общение в комментариях вам менее удобно.
Отправить комментарий