Мысли по поводу уникального контента. Практическая реализация.

Alek$

Вебмастеру на заметку

вс, 14/12/2018 - 17:03

Некоторое время назад я изложил идею о том, как можно получать хороший, уникальный контент в больших количествах. А теперь наконец дошли руки до реализации.

Google Cache Dumper парсит выдачу гугла по запросу site:example.com и пытается выкачать из кеша гугла все найденные страницы. На вход принимаются домен, количество страниц выдачи, подлежащих парсингу и задержка между запросами. На выходе - папка со кешированными страницами.

На данный момент существует только одна проблема - герез некоторое время гугль палит, что его пытаются доить, и перестает отдавать требуемые страницы. Как с этим бороться я пока не придумал.

Тем не менее, желающие могут скачать и пользоваться: gcache.php.txt

Кроме того, в комментариях к тому посту была высказана идея парсить вебархив. В принципе здесь даже проще, чем с гуглом, зато существует проблема найти сайт с достаточно большим количеством сохраненных страниц. Все проверенные мною домены содержали не более 10 страниц, что явно недостаточно. Так что если кто предложет эффективный способ - с меня реализация в виде кода :)

UDP

Появилась идея отправлять запросы разным датацентрам по очереди. Надо будет попробовать.

Trackback URL for this post:

/trackback/291

You are not watching this post, click to start watching

Прикрепленный файл	Размер
gcache.php.txt	3.52 кб

Alek$'s blog

Kastoff Alex	вт, 16/12/2018 - 23:37
	не пойму как этот контент будет считаться уникальным, если его скачали с других сайтов? ответить

Alek$

вт, 16/12/2018 - 23:46

Если бы вы прочли первый пост, вы бы поняли. Идея в том, что скачивается он с уже не уществующих сайтов. И, отлежавшись до тех пор, пока поисковики не очистят кеш для этого сайта, контент становится уникальным. И если изначально он был уникален, то и после он будет уникален, но на другом сайте.

ответить

Stas

вт, 06/01/2019 - 18:38

Подскажите, насчет отправки запросов через разные датацентры, что то получилось сделать?, и еще вопрос а если реализовать отправку через прокси? Мне нужно напарсить 3000 страниц из кэша, может ставить побольше задежку чтоб гугля не банила?

ответить

Alek$	вт, 06/01/2019 - 21:05
	Затея провалилась. Все равно банит. Прокси - это следующий шаг, но до него у меня пока руки не дошли. ответить

zhil

ср, 18/02/2019 - 20:05

сенкс за скрипт, как раз планировал писать :)
Навскидку пару идей как обойти проблему
1. Прокси - железобетонное решение. Прокси геморно искать, они дохнут как мухи, вобщем мне стало влом.
2. "Более натуральное поведение" - вытягивать по 10 страниц, не только скрипт, но и картинки\css\вообще все вхождения, дальше 5й страницы не заходить. По идее таким раком можно вытянуть дохера
3. Забить на гугл. Подсказка - база гугла много где юзается, зато защиты наверняка нет. Раньше можно было через aol тянуть, сейчас уже лень искать как еще можно.

ответить

Alek$

ср, 18/02/2019 - 23:53

С парсингом самой выдачи проблем не возникает. Бан случается, когда подряд идет дофига запросов в кеш гугля. Как это "очеловечить" я не представляю, поскольку css и картинки гугль у себя не хранит, да и нормальные люди по кешу в таких количествах не шарятся. Так что остается только прокси.

ответить

Гость	вт, 15/09/2019 - 23:34
	что то не фурычит скрипт, создает пустую папку в дериктории аут и все ответить

Навигация

Новые записи в блогах

Последние комментарии

Мысли по поводу уникального контента. Практическая реализация.

Trackback URL for this post:

Отправить комментарий