Техническая оптимизация сайта или как избежать дублирование контента

как избежать дублирование контента Добрый день, уважаемые читатели и гости блога! Создавая сайт или блог мы должны думать о том, чтобы он понравился не только нашим читателям, но и роботу поисковых систем, именно в этом случае он попадет в выдачу. Довольно часто можно наблюдать санкции или неадекватное поведение поисковых систем относительно индексации сайта. Основной причиной сему может послужить простое дублирование контента. Причем дублированием в этом случае я называю не специально продублированные статьи или разделы, которые появляются в случае не настроенной полностью системы управления, а в результате когда мы не занимаемся технической оптимизацией сайта. Что это такое и как избавиться от дублирования контента и будем разбирать сегодня.

Продвижение сайта зависит не только от правильно подобранного семантического ядра, от внутренней оптимизации сайта, но и от того как видят наш ресурс поисковые роботы.

Для этого нам необходимо знать как взаимодействуют поисковые системы с нашим сайтом. Это общение у них происходит посредством определенных команд, которые они передают друг другу с помощью протокола http:

техническая оптимизация сайта

первая часть команд в этом протоколе отправляется браузером сайту и говорит о том, что:

  • это запрос происходит по протоколу GET
  • какой запрашивает host
  • каким браузером производится запрос
  • какие типы файлов и кодировок поддерживается
  • какие поддерживаются языки
  • с какой поисковой системы происходит запрос

на что во второй части протокола отвечает уже наш сайт:

  • запрос обработан и посылается ответ 200 ок
  • указывается сервер
  • текущая дата
  • дата последнего изменения страницы

Приблизительно таким образом происходит взаимоотношения браузера и сайта. На самом  деле длина ответа сайта гораздо длиннее, но для нас важно даже не то, что запрашивает браузер, а то какой он получает ответ, а именно чтобы всегда статус запроса был 200 ок.

Статус ответа может иметь следующие значения:

  • 2хх – хорошо
  • 3хх – переадресация
  • 4хх – ошибка клиента
  • 5хх – ошибка сервера

Самый кошмарным станет ситуация, когда сайт ответит 5хх, так как поисковики категорически отрицательно относятся к ответам начинающимся с “5”. Поэтому необходимо уделять этому особое внимание и проверять какие ответы дает Ваш сайт. Посмотреть ответ своего сайта Вы можете на бесплатном сервисе http://be1.ru

Если Вы заметили что сайт периодически отдает ответ 500 срочно меняйте свой хостинг.

Также желательно настроит корректную отдачу дату последнего изменения страницы, то есть Last – modified, который позволяет корректировать частоту появления поисковых роботов у нас на сайте. То есть, предположим, пришел сегодня бот, а информация у нас не изменена, зашел он через 3 дня и увидел все снова без изменений, появляется он теперь через 7 дней и видит что она изменилась, а Last – modified его информирует, что изменения были внесены тремя днями ранее. Робот анализируя это корректирует свое появление на сайте.

Как бы это не было парадоксально, но у 90% сайтов, находящихся в тор , Last – modified отдается не корректно, то есть текущая дата и дата последнего изменения практически совпадает.

техническая оптимизация сайта

Подобное соотношение Яндексом будет считаться не действительным и браться в учет не будет.

Из всего вышесказанном мы делаем простой вывод, что все продвигаемые нами страницы должны отдавать ответ 200 ОК, а на все не существующие 404 ошибку.

А вот со статусом 300 не все так просто. Дело в том, что например, 302 редирект может стать причиной появления дубликата контента в поисковой выдачи, так он означает, что запрашиваемая нами страница временно перемещена на новый адрес, то есть в индекс попадает один и тоже контент по двум различным адресам.

Причины появления дублированного контента

Но не только статус 302 может послужить появлением дубляжа, он может возникнуть и из – за особенностей системы управления сайта и нашей с Вами невнимательности. Дублированный контент можно разделить на два вида – полный и неполный.

  • К полному дубляжу контента можно отнести:

url главной страницы

http://site.ru
http://www.site.ru
http://www.site.ru/index.php

то есть главная страница может открываться по разным адресам. В индексе же должна быть одна какая – то страница, особенно это касается с www или без. Для этого в файле robots.txt обязательно прописываем директиву host, а также при помощи редиректа 301, то есть в файле .htaccess лежащем в корневом каталоге нашего сайта необходимо вставить следующие строки:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^site\.ru
RewriteRule ^(.*)$ http://www\.site\.ru/$1 [R=301,L]

Данной конструкцией мы показываем что домен у нас идет с www, а если Вы хотите без www, то тогда пишем:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^www\.site\.ru
RewriteRule ^(.*)$ http://site\.ru/$1 [R=301,L]

новые адреса без редиректа

http://site.ru/product/promo/
http://www.site.ru/index.php?dir=product&dir=promo

то есть когда мы меняем не читаемые адреса страниц на красивые (чпу), но при этом не поменяли редирект 301, в котором указали, что страница перемещена на всегда на такой – то адрес, таким образом исключая вторую страницу с длинным адресом из индексации, при этом передавая ее вес PR новой странице с красивым url.

лишние переменные

http://www.site.ru/index.php?id=12
http://www.site.ru/index.php?id=12&cat=56

данная ситуация может возникнуть из-за особенностей движка, особенно это наблюдается у joomla

индентикатор сессий отдает запросы

уязвимости 404 ошибки – это когда пользователь вводит не существующий адрес, а при этом статус отдает 200 ок что команда отработана и данный документ существует. Здесь можно, если Вы хорошо разбираетесь в системе управления сайта, просто это исправить или же поступить самым доступным методом и закрыть данную страницу от индексации в файле robots.txt

— ссылки рефералов

http://www.site.ru/index.php?promet_id=12&aff=user

  • Неполные дубли контента появляются при следующих факторах:

— сортировка результатов – цена, размер, дата – это особенность интернет магазинов

— недостаток или отсутствие контента, то есть мы создали сайт и просто создали страницы, но не заполнили их контеном, а робот пришел и проиндексировал страницы без контента.

— страница списка анонса новостей, статей (анонсы больших размеров)- этим страдают многие блоггеры, которые выводят статьи на главную полностью. Лучше всего делать анонс из 5-7 предложений.

Чем вреден дублированный контент?

Итак, по той или иной не зависящей от Вас причине у продвигаемого сайта появились в индексе дублированные страницы. Вычислить появление такого контента можно очень легко – сравнив наличие страниц на существующем сайта с количеством проиндексированных страниц в панели сервиса  webmaster.yandex.ru, в который необходимо обязательно добавить свой сайт сразу же при выводе в интернет, как это сделать я подробно описывала в статье “Информирую поисковые системы о создании карты sitemap.xml”. И если количество реальных страниц в разы больше проиндексированных, то это свидетельствует о наличие дублированного контента, наличие которого ничего хорошо для сайта не принесет.

Ведь может получится так, что Вы будете работать, прилагать какие – то физические и материальные усилия на продвижение определенный страницы, а за счет появления дубляжа станет релевантной совсем другая страницы. Далее из – за появившегося дублирований на сайте накапливаются страницы с не уникальным контентом, а мы прекрасно знаем как относится Яндекс к таким ресурсам. И самое неприятное что может произойти – возможное исключение из индекса продвигаемых нами страниц, так как поисковые системы обычно дубликаты стараются исключить из индекса.

Что же делать если у Вас появился дублированный контент на сайте?

Естественно начинаем генеральную уборку и удаляем весь дублирующий контент, который бесполезен нашему читателю, а тот дубляж который удалить не удается закрываем от индексации. У Вас может возникнуть вопрос: как? Очень просто, в этом случае нам приходят на помощь следующие инструменты:

1. Мета тег “robots”:

<meta name=”robots” content=”nofollow”/>

у данного тега могут быть следующие атрибуты:

index — индексировать
follow – учитывать ссылки
noindex – не индексировать
nofollow – не учитывать ссылки
all – индексировать все
none – ничего не индексировать

Данный тег можно прописать для каждой страницы, но закрыть можно только определенную.

2. Специальный тег Яндекса – noindex

Мне нравится, что вы больны не мною
<noindex>Мне нравится, что я больна не Вами (этот текст Яндекс увидит, но индексировать не будет скорее всего)</noindex>
Что никогда тяжелый шар земной
Не уплывет под нашими ногами…..

То есть с помощью данного тега Вы можете закрыть от индексации поисковой системой Яндекс любую часть текста, но это не говорит о том что бот его не увидит. Робот его увидит, но индексировать не будет. При этом никто Вам не будет гарантировать, что если Вы заключите в тег <noindex> блок ссылок Яндекс их не “проглотит”.

3.Файл “robots.txt”, который всегда находится в корневом каталоге сайта. Как правильно написать файл robots.txt я уже рассказывала очень подробно в статье: «Создаем файл robots.txt для Joomla«. Сегодня же я хочу просто добавить немного следующей информации:

— адреса начинаются после третьего слеша, то есть если Вы хотите закрыть от индексации страницу с адресом http://www.site.ru/index.php?id=12&cat=56, то в файле robots.txt прописываем disalow: *index.php?id=12&cat=56

— символ “*” – любая последовательность символов, то есть мне необходимо закрыть от индексации все страницы из категории product( http://site.ru/product/promo/), то мне достаточно будет прописать в файле robots.txt — disalow:*product*

— символ “$” – конец строки, то есть если мне необходимо закрыть от индексации страницы оканчивающиеся на .php (http://www.site.ru/index.php ), то мне достаточно будет прописать в файле robots.txt — disalow:*.php$

Как видите в борьбе с дублирующим контентом ничего сложного нет. Появление дублей можно и избежать, если занимаясь созданием сайта сразу же проводить техническую оптимизацию сайту, без которой продвижение сайта просто осложняется. Так же если Вы довольно часто обновляете свой ресурс, пишите часто новые материалы позаботьтесь о создание карты сайты в формате .xml, которую поисковые роботы по сравнению картой сайта в формате.html просто обожают. Боты могут не приходить на сайт, но карту они могут просматривать и тем самым ускорять индексацию страниц.

Ух, на этом мне, пожалуй, стоит сегодня уже завершить столь сложную на первый взгляд тему и дать Вам время, чтобы все осмыслить.

Всем удачи в продвижение и до новых встреч, продолжение следует….

С уважением, Наталья Яшина

Вам понравилась статья? Расскажите о ней друзьям!