Мысли по поводу уникального контента. Практическая реализация.

Alek$ вс, 14/12/2018 - 17:03

Некоторое время назад я изложил идею о том, как можно получать хороший, уникальный контент в больших количествах. А теперь наконец дошли руки до реализации.

Google Cache Dumper парсит выдачу гугла по запросу site:example.com и пытается выкачать из кеша гугла все найденные страницы. На вход принимаются домен, количество страниц выдачи, подлежащих парсингу и задержка между запросами. На выходе - папка со кешированными страницами.

На данный момент существует только одна проблема - герез некоторое время гугль палит, что его пытаются доить, и перестает отдавать требуемые страницы. Как с этим бороться я пока не придумал.

Тем не менее, желающие могут скачать и пользоваться: gcache.php.txt

Кроме того, в комментариях к тому посту была высказана идея парсить вебархив. В принципе здесь даже проще, чем с гуглом, зато существует проблема найти сайт с достаточно большим количеством сохраненных страниц. Все проверенные мною домены содержали не более 10 страниц, что явно недостаточно. Так что если кто предложет эффективный способ - с меня реализация в виде кода :)

UDP

Появилась идея отправлять запросы разным датацентрам по очереди. Надо будет попробовать.



Trackback URL for this post:

/trackback/291
Прикрепленный файл Размер
gcache.php.txt 3.52 кб
Kastoff Alex вт, 16/12/2018 - 23:37

не пойму как этот контент будет считаться уникальным, если его скачали с других сайтов?

Alek$ вт, 16/12/2018 - 23:46

Если бы вы прочли первый пост, вы бы поняли. Идея в том, что скачивается он с уже не уществующих сайтов. И, отлежавшись до тех пор, пока поисковики не очистят кеш для этого сайта, контент становится уникальным. И если изначально он был уникален, то и после он будет уникален, но на другом сайте.

Stas вт, 06/01/2019 - 18:38

Подскажите, насчет отправки запросов через разные датацентры, что то получилось сделать?, и еще вопрос а если реализовать отправку через прокси? Мне нужно напарсить 3000 страниц из кэша, может ставить побольше задежку чтоб гугля не банила?

Alek$ вт, 06/01/2019 - 21:05

Затея провалилась. Все равно банит.
Прокси - это следующий шаг, но до него у меня пока руки не дошли.

zhil ср, 18/02/2019 - 20:05

сенкс за скрипт, как раз планировал писать :)
Навскидку пару идей как обойти проблему
1. Прокси - железобетонное решение. Прокси геморно искать, они дохнут как мухи, вобщем мне стало влом.
2. "Более натуральное поведение" - вытягивать по 10 страниц, не только скрипт, но и картинки\css\вообще все вхождения, дальше 5й страницы не заходить. По идее таким раком можно вытянуть дохера
3. Забить на гугл. Подсказка - база гугла много где юзается, зато защиты наверняка нет. Раньше можно было через aol тянуть, сейчас уже лень искать как еще можно.

Alek$ ср, 18/02/2019 - 23:53

С парсингом самой выдачи проблем не возникает. Бан случается, когда подряд идет дофига запросов в кеш гугля. Как это "очеловечить" я не представляю, поскольку css и картинки гугль у себя не хранит, да и нормальные люди по кешу в таких количествах не шарятся. Так что остается только прокси.

Гость вт, 15/09/2019 - 23:34

что то не фурычит скрипт, создает пустую папку в дериктории аут и все



Отправить комментарий

CAPTCHA
Вы точно не бот?
17 + 1 =
Without JavaScript you won't pass captcha test, sorry. Solve this simple math problem and enter the result. E.g. for 1+3, enter 4.