Некоторое время назад я изложил идею о том, как можно получать хороший, уникальный контент в больших количествах. А теперь наконец дошли руки до реализации.
Google Cache Dumper парсит выдачу гугла по запросу site:example.com и пытается выкачать из кеша гугла все найденные страницы. На вход принимаются домен, количество страниц выдачи, подлежащих парсингу и задержка между запросами. На выходе - папка со кешированными страницами.
На данный момент существует только одна проблема - герез некоторое время гугль палит, что его пытаются доить, и перестает отдавать требуемые страницы. Как с этим бороться я пока не придумал.
Тем не менее, желающие могут скачать и пользоваться: gcache.php.txt
Кроме того, в комментариях к тому посту была высказана идея парсить вебархив. В принципе здесь даже проще, чем с гуглом, зато существует проблема найти сайт с достаточно большим количеством сохраненных страниц. Все проверенные мною домены содержали не более 10 страниц, что явно недостаточно. Так что если кто предложет эффективный способ - с меня реализация в виде кода :)
UDP
Появилась идея отправлять запросы разным датацентрам по очереди. Надо будет попробовать.
Прикрепленный файл | Размер |
---|---|
gcache.php.txt | 3.52 кб |
не пойму как этот контент будет считаться уникальным, если его скачали с других сайтов?
Если бы вы прочли первый пост, вы бы поняли. Идея в том, что скачивается он с уже не уществующих сайтов. И, отлежавшись до тех пор, пока поисковики не очистят кеш для этого сайта, контент становится уникальным. И если изначально он был уникален, то и после он будет уникален, но на другом сайте.
Подскажите, насчет отправки запросов через разные датацентры, что то получилось сделать?, и еще вопрос а если реализовать отправку через прокси? Мне нужно напарсить 3000 страниц из кэша, может ставить побольше задежку чтоб гугля не банила?
Затея провалилась. Все равно банит.
Прокси - это следующий шаг, но до него у меня пока руки не дошли.
сенкс за скрипт, как раз планировал писать :)
Навскидку пару идей как обойти проблему
1. Прокси - железобетонное решение. Прокси геморно искать, они дохнут как мухи, вобщем мне стало влом.
2. "Более натуральное поведение" - вытягивать по 10 страниц, не только скрипт, но и картинки\css\вообще все вхождения, дальше 5й страницы не заходить. По идее таким раком можно вытянуть дохера
3. Забить на гугл. Подсказка - база гугла много где юзается, зато защиты наверняка нет. Раньше можно было через aol тянуть, сейчас уже лень искать как еще можно.
С парсингом самой выдачи проблем не возникает. Бан случается, когда подряд идет дофига запросов в кеш гугля. Как это "очеловечить" я не представляю, поскольку css и картинки гугль у себя не хранит, да и нормальные люди по кешу в таких количествах не шарятся. Так что остается только прокси.
что то не фурычит скрипт, создает пустую папку в дериктории аут и все
Отправить комментарий