Вебмастеру на заметку

Почему чтение исходных кодов страниц полезно для здоровья.


Alek$ вс, 25/01/2019 - 12:35

Как минимум три четветри русскоговорящих вебмастеров ходили читать комментарии в коде на домашней страничке господина Лебедева. Отжиги там попадаются еще те, кто не читал - продлите себе жизнь, почитайте.

Вот только если вы думаете, что отжигать в комментах умеет только Тёма, то вы заблуждаетесь. Один из таких сайтов - ru, некогда популярный у системных администраторов в качестве аргумента для команды ping :) Давайте глянем, что скрывается за кулисами гордого названия Russia on the Net.

Первым делом бросается в взгляда качество HTML кода. Тут тебе параметры тегов и в одинарных кавычках, и в двойных, и вовсе без них. Скажу по секрету, на этом сайте очень удобно отлаживать всяких пауков, поскольку здесь им предоставляется возможность распознавать самые разные ссылки и прочие теги. В прочем это скорее грустно, чем смешно, поэтому не будем здесь задерживаться.

Мысли по поводу уникального контента. Практическая реализация.


Alek$ вс, 14/12/2018 - 17:03

Некоторое время назад я изложил идею о том, как можно получать хороший, уникальный контент в больших количествах. А теперь наконец дошли руки до реализации.

Google Cache Dumper парсит выдачу гугла по запросу site:example.com и пытается выкачать из кеша гугла все найденные страницы. На вход принимаются домен, количество страниц выдачи, подлежащих парсингу и задержка между запросами. На выходе - папка со кешированными страницами.

На данный момент существует только одна проблема - герез некоторое время гугль палит, что его пытаются доить, и перестает отдавать требуемые страницы. Как с этим бороться я пока не придумал.

Тем не менее, желающие могут скачать и пользоваться: gcache.php.txt

Мысли по поводу уникального контента.


Alek$ пн, 17/11/2018 - 17:08

Щас вот ехал в маршрутке и думал. Не для кого не секрет, что нередко в кеше гугля хранятся страницы уже мертвых сайтов, у которых кончился хостинг или домен или просто снесли. У некоторых даже по нескольку сотен страниц кешированных бывает. Да вот что будет, если я аккуратненько напарсю оттуда контент, дам ему отлежаться пар месяцев, пока их кеша не удалится, а потом сам где-нибудь заюзаю. При условии, что контент изначально не был копипастом, я получу неплохое количество уника.

Кто-нибудь пробовал такой трюк?

#5 Обзор закладок


Alek$ вс, 09/11/2018 - 13:05

Давненько я не делал ревизию своих закладок, между тем добавляется туда что-то почти каждый день. Что ж, исправим упущение.

Йа.Словарь - парсер словарей Яндекса


Alek$ сб, 08/11/2018 - 21:03

Недавно мне понадобилось надыбать тематического контента под синонимизацию. Источником оного я решил сделать Яндекс.Словари и быстренько набросал парсер, который по заданному кейворду парсил выдачу словарей и сохранял выдранные статьи в отдельную папочку.

Сегодня делать было как-то нечего, и я решил довести мое давишнее творение до ума, добавив в него возможность парсить по отдельным словарям ну и еще по мелочам.

В результате получилась вполне симпатичная программка: