
Как минимум три четветри русскоговорящих вебмастеров ходили читать комментарии в коде на домашней страничке господина Лебедева. Отжиги там попадаются еще те, кто не читал - продлите себе жизнь, почитайте.
Вот только если вы думаете, что отжигать в комментах умеет только Тёма, то вы заблуждаетесь. Один из таких сайтов - ru, некогда популярный у системных администраторов в качестве аргумента для команды ping :) Давайте глянем, что скрывается за кулисами гордого названия Russia on the Net.
Первым делом бросается в взгляда качество HTML кода. Тут тебе параметры тегов и в одинарных кавычках, и в двойных, и вовсе без них. Скажу по секрету, на этом сайте очень удобно отлаживать всяких пауков, поскольку здесь им предоставляется возможность распознавать самые разные ссылки и прочие теги. В прочем это скорее грустно, чем смешно, поэтому не будем здесь задерживаться.
Некоторое время назад я изложил идею о том, как можно получать хороший, уникальный контент в больших количествах. А теперь наконец дошли руки до реализации.
Google Cache Dumper парсит выдачу гугла по запросу site:example.com и пытается выкачать из кеша гугла все найденные страницы. На вход принимаются домен, количество страниц выдачи, подлежащих парсингу и задержка между запросами. На выходе - папка со кешированными страницами.
На данный момент существует только одна проблема - герез некоторое время гугль палит, что его пытаются доить, и перестает отдавать требуемые страницы. Как с этим бороться я пока не придумал.
Тем не менее, желающие могут скачать и пользоваться: gcache.php.txt
Щас вот ехал в маршрутке и думал. Не для кого не секрет, что нередко в кеше гугля хранятся страницы уже мертвых сайтов, у которых кончился хостинг или домен или просто снесли. У некоторых даже по нескольку сотен страниц кешированных бывает. Да вот что будет, если я аккуратненько напарсю оттуда контент, дам ему отлежаться пар месяцев, пока их кеша не удалится, а потом сам где-нибудь заюзаю. При условии, что контент изначально не был копипастом, я получу неплохое количество уника.
Кто-нибудь пробовал такой трюк?
Давненько я не делал ревизию своих закладок, между тем добавляется туда что-то почти каждый день. Что ж, исправим упущение.
Недавно мне понадобилось надыбать тематического контента под синонимизацию. Источником оного я решил сделать Яндекс.Словари и быстренько набросал парсер, который по заданному кейворду парсил выдачу словарей и сохранял выдранные статьи в отдельную папочку.
Сегодня делать было как-то нечего, и я решил довести мое давишнее творение до ума, добавив в него возможность парсить по отдельным словарям ну и еще по мелочам.
В результате получилась вполне симпатичная программка:
Последние комментарии
/Манул/ 6 дней 10 часов назад
/Alek$/ 1 неделя 18 часов назад
/Манул/ 1 неделя 19 часов назад
/Манул/ 1 неделя 19 часов назад
/Alek$/ 2 недели 5 дней назад
/wlad2/ 2 недели 5 дней назад
/Александр/ 5 недель 2 дня назад
/Александр/ 5 недель 2 дня назад
/Alek$/ 5 недель 5 дней назад
/dasha/ 5 недель 6 дней назад