Техническая оптимизация сайта или как избежать дублирование контента
Добрый день, уважаемые читатели и гости блога! Создавая сайт или блог мы должны думать о том, чтобы он понравился не только нашим читателям, но и роботу поисковых систем, именно в этом случае он попадет в выдачу. Довольно часто можно наблюдать санкции или неадекватное поведение поисковых систем относительно индексации сайта. Основной причиной сему может послужить простое дублирование контента. Причем дублированием в этом случае я называю не специально продублированные статьи или разделы, которые появляются в случае не настроенной полностью системы управления, а в результате когда мы не занимаемся технической оптимизацией сайта. Что это такое и как избавиться от дублирования контента и будем разбирать сегодня.
Продвижение сайта зависит не только от правильно подобранного семантического ядра, от внутренней оптимизации сайта, но и от того как видят наш ресурс поисковые роботы.
Для этого нам необходимо знать как взаимодействуют поисковые системы с нашим сайтом. Это общение у них происходит посредством определенных команд, которые они передают друг другу с помощью протокола http:
первая часть команд в этом протоколе отправляется браузером сайту и говорит о том, что:
- это запрос происходит по протоколу GET
- какой запрашивает host
- каким браузером производится запрос
- какие типы файлов и кодировок поддерживается
- какие поддерживаются языки
- с какой поисковой системы происходит запрос
на что во второй части протокола отвечает уже наш сайт:
- запрос обработан и посылается ответ 200 ок
- указывается сервер
- текущая дата
- дата последнего изменения страницы
Приблизительно таким образом происходит взаимоотношения браузера и сайта. На самом деле длина ответа сайта гораздо длиннее, но для нас важно даже не то, что запрашивает браузер, а то какой он получает ответ, а именно чтобы всегда статус запроса был 200 ок.
Статус ответа может иметь следующие значения:
- 2хх – хорошо
- 3хх – переадресация
- 4хх – ошибка клиента
- 5хх – ошибка сервера
Самый кошмарным станет ситуация, когда сайт ответит 5хх, так как поисковики категорически отрицательно относятся к ответам начинающимся с “5”. Поэтому необходимо уделять этому особое внимание и проверять какие ответы дает Ваш сайт. Посмотреть ответ своего сайта Вы можете на бесплатном сервисе http://be1.ru
Если Вы заметили что сайт периодически отдает ответ 500 срочно меняйте свой хостинг.
Также желательно настроит корректную отдачу дату последнего изменения страницы, то есть Last – modified, который позволяет корректировать частоту появления поисковых роботов у нас на сайте. То есть, предположим, пришел сегодня бот, а информация у нас не изменена, зашел он через 3 дня и увидел все снова без изменений, появляется он теперь через 7 дней и видит что она изменилась, а Last – modified его информирует, что изменения были внесены тремя днями ранее. Робот анализируя это корректирует свое появление на сайте.
Как бы это не было парадоксально, но у 90% сайтов, находящихся в тор , Last – modified отдается не корректно, то есть текущая дата и дата последнего изменения практически совпадает.
Подобное соотношение Яндексом будет считаться не действительным и браться в учет не будет.
Из всего вышесказанном мы делаем простой вывод, что все продвигаемые нами страницы должны отдавать ответ 200 ОК, а на все не существующие 404 ошибку.
А вот со статусом 300 не все так просто. Дело в том, что например, 302 редирект может стать причиной появления дубликата контента в поисковой выдачи, так он означает, что запрашиваемая нами страница временно перемещена на новый адрес, то есть в индекс попадает один и тоже контент по двум различным адресам.
Причины появления дублированного контента
Но не только статус 302 может послужить появлением дубляжа, он может возникнуть и из – за особенностей системы управления сайта и нашей с Вами невнимательности. Дублированный контент можно разделить на два вида – полный и неполный.
- К полному дубляжу контента можно отнести:
— url главной страницы
http://site.ru
http://www.site.ru
http://www.site.ru/index.php
то есть главная страница может открываться по разным адресам. В индексе же должна быть одна какая – то страница, особенно это касается с www или без. Для этого в файле robots.txt обязательно прописываем директиву host, а также при помощи редиректа 301, то есть в файле .htaccess лежащем в корневом каталоге нашего сайта необходимо вставить следующие строки:
RewriteEngine On
RewriteCond %{HTTP_HOST} ^site\.ru
RewriteRule ^(.*)$ http://www\.site\.ru/$1 [R=301,L]
Данной конструкцией мы показываем что домен у нас идет с www, а если Вы хотите без www, то тогда пишем:
RewriteEngine On
RewriteCond %{HTTP_HOST} ^www\.site\.ru
RewriteRule ^(.*)$ http://site\.ru/$1 [R=301,L]
— новые адреса без редиректа
http://site.ru/product/promo/
http://www.site.ru/index.php?dir=product&dir=promo
то есть когда мы меняем не читаемые адреса страниц на красивые (чпу), но при этом не поменяли редирект 301, в котором указали, что страница перемещена на всегда на такой – то адрес, таким образом исключая вторую страницу с длинным адресом из индексации, при этом передавая ее вес PR новой странице с красивым url.
— лишние переменные
http://www.site.ru/index.php?id=12
http://www.site.ru/index.php?id=12&cat=56
данная ситуация может возникнуть из-за особенностей движка, особенно это наблюдается у joomla
— индентикатор сессий отдает запросы
— уязвимости 404 ошибки – это когда пользователь вводит не существующий адрес, а при этом статус отдает 200 ок что команда отработана и данный документ существует. Здесь можно, если Вы хорошо разбираетесь в системе управления сайта, просто это исправить или же поступить самым доступным методом и закрыть данную страницу от индексации в файле robots.txt
— ссылки рефералов
http://www.site.ru/index.php?promet_id=12&aff=user
- Неполные дубли контента появляются при следующих факторах:
— сортировка результатов – цена, размер, дата – это особенность интернет магазинов
— недостаток или отсутствие контента, то есть мы создали сайт и просто создали страницы, но не заполнили их контеном, а робот пришел и проиндексировал страницы без контента.
— страница списка анонса новостей, статей (анонсы больших размеров)- этим страдают многие блоггеры, которые выводят статьи на главную полностью. Лучше всего делать анонс из 5-7 предложений.
Чем вреден дублированный контент?
Итак, по той или иной не зависящей от Вас причине у продвигаемого сайта появились в индексе дублированные страницы. Вычислить появление такого контента можно очень легко – сравнив наличие страниц на существующем сайта с количеством проиндексированных страниц в панели сервиса webmaster.yandex.ru, в который необходимо обязательно добавить свой сайт сразу же при выводе в интернет, как это сделать я подробно описывала в статье “Информирую поисковые системы о создании карты sitemap.xml”. И если количество реальных страниц в разы больше проиндексированных, то это свидетельствует о наличие дублированного контента, наличие которого ничего хорошо для сайта не принесет.
Ведь может получится так, что Вы будете работать, прилагать какие – то физические и материальные усилия на продвижение определенный страницы, а за счет появления дубляжа станет релевантной совсем другая страницы. Далее из – за появившегося дублирований на сайте накапливаются страницы с не уникальным контентом, а мы прекрасно знаем как относится Яндекс к таким ресурсам. И самое неприятное что может произойти – возможное исключение из индекса продвигаемых нами страниц, так как поисковые системы обычно дубликаты стараются исключить из индекса.
Что же делать если у Вас появился дублированный контент на сайте?
Естественно начинаем генеральную уборку и удаляем весь дублирующий контент, который бесполезен нашему читателю, а тот дубляж который удалить не удается закрываем от индексации. У Вас может возникнуть вопрос: как? Очень просто, в этом случае нам приходят на помощь следующие инструменты:
1. Мета тег “robots”:
<meta name=”robots” content=”nofollow”/>
у данного тега могут быть следующие атрибуты:
index — индексировать
follow – учитывать ссылки
noindex – не индексировать
nofollow – не учитывать ссылки
all – индексировать все
none – ничего не индексировать
Данный тег можно прописать для каждой страницы, но закрыть можно только определенную.
2. Специальный тег Яндекса – noindex
Мне нравится, что вы больны не мною
<noindex>Мне нравится, что я больна не Вами (этот текст Яндекс увидит, но индексировать не будет скорее всего)</noindex>
Что никогда тяжелый шар земной
Не уплывет под нашими ногами…..
То есть с помощью данного тега Вы можете закрыть от индексации поисковой системой Яндекс любую часть текста, но это не говорит о том что бот его не увидит. Робот его увидит, но индексировать не будет. При этом никто Вам не будет гарантировать, что если Вы заключите в тег <noindex> блок ссылок Яндекс их не “проглотит”.
3.Файл “robots.txt”, который всегда находится в корневом каталоге сайта. Как правильно написать файл robots.txt я уже рассказывала очень подробно в статье: «Создаем файл robots.txt для Joomla«. Сегодня же я хочу просто добавить немного следующей информации:
— адреса начинаются после третьего слеша, то есть если Вы хотите закрыть от индексации страницу с адресом http://www.site.ru/index.php?id=12&cat=56, то в файле robots.txt прописываем disalow: *index.php?id=12&cat=56
— символ “*” – любая последовательность символов, то есть мне необходимо закрыть от индексации все страницы из категории product( http://site.ru/product/promo/), то мне достаточно будет прописать в файле robots.txt — disalow:*product*
— символ “$” – конец строки, то есть если мне необходимо закрыть от индексации страницы оканчивающиеся на .php (http://www.site.ru/index.php ), то мне достаточно будет прописать в файле robots.txt — disalow:*.php$
Как видите в борьбе с дублирующим контентом ничего сложного нет. Появление дублей можно и избежать, если занимаясь созданием сайта сразу же проводить техническую оптимизацию сайту, без которой продвижение сайта просто осложняется. Так же если Вы довольно часто обновляете свой ресурс, пишите часто новые материалы позаботьтесь о создание карты сайты в формате .xml, которую поисковые роботы по сравнению картой сайта в формате.html просто обожают. Боты могут не приходить на сайт, но карту они могут просматривать и тем самым ускорять индексацию страниц.
Ух, на этом мне, пожалуй, стоит сегодня уже завершить столь сложную на первый взгляд тему и дать Вам время, чтобы все осмыслить.
Всем удачи в продвижение и до новых встреч, продолжение следует….
С уважением, Наталья Яшина
Возможно Вам это будет интересно:
Вам понравилась статья? Расскажите о ней друзьям!