Полезно быть подписанным на блог Яндекса — всегда узнаешь полезные новости из первых рук.
Вот, например, вчера был анонсирован конкурс «Интернет-математика 2009».
Задача участников — с помощью методов машинного обучения получить формулу ранжирования документов. Для этого мы предоставляем участникам реальные данные — признаки пар «запрос-документ» и оценки релевантности, сделанные асессорами Яндекса. Варианты решений можно слать многократно вплоть до окончания конкурса. На основании части данных будет формироваться текущий публичный рейтинг решений. Победителей конкурса ждут призы, а у автора лучшего результата есть шанс увидеть, как будет работать его формула при поиске по всей базе Яндекса.
Спешу вас обрадовать, RegSubmitter ESB наконец увидел свет! На данный момент он позвояет регистрировать аккаунты в 15 зарубежных сервисах, 14 из которых - do-follow: A1-Webmarks, BibSonomy.org, Connotea, folkd.com, Furl.net, GiveALink, iKeepBookmarks.com, LinkaGoGo, myVmarks, Mister Wong.com, myHq beta, SyncOne.net, Spotback, Technorati и Delicious. Цена этого комплекса - всего $15 Ровно столько, сколько поддерживается сервисов. И с увеличением этого числа, будет расти и цена, так что покупайте заранее, ибо все обновления - бесплатные
Как минимум три четветри русскоговорящих вебмастеров ходили читать комментарии в коде на домашней страничке господина Лебедева. Отжиги там попадаются еще те, кто не читал - продлите себе жизнь, почитайте.
Вот только если вы думаете, что отжигать в комментах умеет только Тёма, то вы заблуждаетесь. Один из таких сайтов - ru, некогда популярный у системных администраторов в качестве аргумента для команды ping Давайте глянем, что скрывается за кулисами гордого названия Russia on the Net.
Первым делом бросается в взгляда качество HTML кода. Тут тебе параметры тегов и в одинарных кавычках, и в двойных, и вовсе без них. Скажу по секрету, на этом сайте очень удобно отлаживать всяких пауков, поскольку здесь им предоставляется возможность распознавать самые разные ссылки и прочие теги. В прочем это скорее грустно, чем смешно, поэтому не будем здесь задерживаться.
Некоторое время назад я изложил идею о том, как можно получать хороший, уникальный контент в больших количествах. А теперь наконец дошли руки до реализации.
Google Cache Dumper парсит выдачу гугла по запросу site:example.com и пытается выкачать из кеша гугла все найденные страницы. На вход принимаются домен, количество страниц выдачи, подлежащих парсингу и задержка между запросами. На выходе - папка со кешированными страницами.
На данный момент существует только одна проблема - герез некоторое время гугль палит, что его пытаются доить, и перестает отдавать требуемые страницы. Как с этим бороться я пока не придумал.
Тем не менее, желающие могут скачать и пользоваться: gcache.php.txt
Щас вот ехал в маршрутке и думал. Не для кого не секрет, что нередко в кеше гугля хранятся страницы уже мертвых сайтов, у которых кончился хостинг или домен или просто снесли. У некоторых даже по нескольку сотен страниц кешированных бывает. Да вот что будет, если я аккуратненько напарсю оттуда контент, дам ему отлежаться пар месяцев, пока их кеша не удалится, а потом сам где-нибудь заюзаю. При условии, что контент изначально не был копипастом, я получу неплохое количество уника.
Кто-нибудь пробовал такой трюк?
Давненько я не делал ревизию своих закладок, между тем добавляется туда что-то почти каждый день. Что ж, исправим упущение.
Недавно мне понадобилось надыбать тематического контента под синонимизацию. Источником оного я решил сделать Яндекс.Словари и быстренько набросал парсер, который по заданному кейворду парсил выдачу словарей и сохранял выдранные статьи в отдельную папочку.
Сегодня делать было как-то нечего, и я решил довести мое давишнее творение до ума, добавив в него возможность парсить по отдельным словарям ну и еще по мелочам.
В результате получилась вполне симпатичная программка:
Как я уже говорил раньше, я решил пойти по пути сателлитостроения. Собственно, я и пошел, но довольно быстро столкнулся с проблемой уникального контента. При этом ситуация выходила самая печальная: покупать готовый контент или заказывать рерайт - дорого, писать самому - тяжело и времени много отнимает, публичные синонимайзеры работали из рук вон плохо. Я уже начал задумываться о написании собственного решения.
Эта подборка ссылок будет тематическая, поскольку в силу моих интересов, у меня накопилось довольно много информации на форумную тему. Приступим.
1) Как я раскрутил форум
Очень подробная и занимательная статья о том, как правильно подойти к созданию форума, чтобы не тратить силы впустую.
2) Раскрутка форума - подробное руководство, часть 1 и часть 2
Последние комментарии
/Alek$/ 18 часов 58 минут назад
/Виктор Фомин/ 21 час 3 минуты назад
/Alek$/ 1 день 12 часов назад
/SEOinSoul/ 1 день 13 часов назад
/Alek$/ 1 день 17 часов назад
/Artpsiholog/ 1 день 17 часов назад
/piner/ 1 день 18 часов назад