Создаем файл robots.txt для Joomla
Добрый день уважаемые читатели! Создав сайт на Joomla не стоит забывать о необходимости создания файла robots.txt. Для продвижения сайта его должны проиндексировать поисковые роботы. А так как Joomla состоит из огромного колличества различных расширений и они не все должны быть проиндексированы поисковыми ботами. Поэтому необходимо прописать правила поведения ботов при индексации сайта. Вот для этой цели и следует создать файл robots.txt для Joomla.
Прежде чем приступить к созданию , необходимо понять,что такое файл robots.txt.
Файл robots.txt представляет из себя простой текстовый файл, в котором указаны специальные инструкции для поисковых роботов и даже можно указать что следует проиндексировать в первую очередь. Создать или отредактировать файл robots.txt для Joomla можно при помощи любого текстового редактора ( блокнот, Notepad++). При сохранение следует учитывать, что название файла должно быть прописано с маленькой буквы. Это одно из основных правил создания файла robots.txt
Для того чтобы поисковые роботы увидели инструкцию по индексации сайта, файл robots.txt необходимо поместить в корневую папку сайта, то есть в моем случае это папка public_html, в которой расположены все основные папки движка. Файл robots.txt может просмотреть не только поисковый робот , но и вы можете найти по адресу http://namesite/robots.txt
Но прежде его нужно для начала еще создать и правильно указать основные директивы
В самом начале в файле robots.txt необходимо прописать для какого поискового бота созданы инструкции . Для этого применяется директива ‘User-agent’, то что мы хотим разрешить проиндексировать поисковому роботу указывается при помощи директивы ‘Allow’, а для запрещения используем директивы ‘Disallow’. Не стоит забывать указывать директиву ‘Sitemap’, которая показывает путь поисковым роботам к файлу карты сайта.
Структура robots.txt простая. Все начинается с директивы User-agent, в которой указываем какой поисковый робот должен индексировать страницы. Директива User-agent, адресованная всем ботам , будет иметь следующий вид:
User-agent: * |
Если же мне нужно задать в данной директиве условия индексирования для какого — то определенного поискового робота, предположим для Яндекса, то директива будет иметь следующий вид:
User-agent: Yandex |
Каждая поисковая система имеет своего робота, который имеет свое название. Я приведу имена наиболее встречаемых поисковых роботов:
Поисковый робот от Yandex – User-agent: Yandex;
Поисковый робот от Google – User-agent: Googlebot;
Поисковый робот от Rambler – User-agent: StackRambler;
Поисковый робот от Yahoo! – User-agent: Yahoo! Slurp;
Поисковый робот от MSN – User-agent: MSNbot;
После указания директивы User-agent строчкой ниже прописываем директиву Disallow — инструкцию для бота. Между этими строчками не должно быть пустых строк, иначе это будет означать конец блока.
Для разрешения всем поисковым роботам индексировать весь сайт необходимо прописать:
User-agent: * Disallow: |
Чтобы запретить всем индексировать сайт нужно в robots.txt прописать директиву Disallow с «/»:
User-agent: * Disallow: / |
И так чтобы запретить индексирование определенной папки, то прописываем следующее:
User-agent: * Disallow: /name/ |
Где вместо значения name указываем имя папки. Значение
User-agent: * Disallow: /name |
запрещает индексирование любых папок и файлов, которые называются или имеют в своем названии (name.html, names.html, папки: name, names1, name56 и так далее)
Обязательно следует применить директиву Host, чтобы не было проблем с редиректом.
User-agent: * Host: www.site.ru |
или же можно прописать
User-agent: * Host: site.ru |
Вариант написания этой директивы зависит от того, что вам будет оптимально.И в самом конце прописываем директиву Sitemap, которая указывает на расположение карты сайта в формате .xml. Например:
Sitemap: http://namesite/sitemap.xml |
Можно еще указатать директиву Crawl-delay: n
Где n – величина задержки в секундах перед индексированием страницы, необходимо для медленных серверов.
Вот эти основные директивы и были использованы мною при создании моего файла robots.txt для Joomla. В итоге у меня получилось следующее:
User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Host: www.needforhope.ru Sitemap: http://www.needforhope.ru/sitemap.xml |
С помощью данного файла robots.txt были закрыты от индексации всеми поисковыми роботами все системные папки.
Отправив данный файл в корневую директорию сайта необходимо с помощью сервиса Яндлекс . Вебмастер проверить его на правильность написания . Зайдя в свой аккаунт выбираем пункт Настройка индексации — Анализ robots.txt и в открывшемся окне в строке Имя хоста — указываем адрес сайта, затем нажимаем на Загрузить с сайта.После завершения загрузки ваш файл robots.txt отразится в поле Robots.txt. И теперь вам останется только нажать на кнопку Проверить, чтобы проверить правильность его написания.
Этот способ проверки подходит в том случае, если вы уже загрузили файл robots.txt в корневую папку сайта. Но можно проверить правильность написания файла и не загружая его. Для этого вы просто копируете содержимое файла и вставляете его в поле Robots.txt и затем нажимаете Проверить.
При правильно составленом файле в итоге вы получите нечто подобное(стрелочка 1) Если же вы допустили ошибку или поисковая система считает, что файл robots.txt составле не корректно, то вы об этом узнаете из сообщения, расположенного в правом углу (стрелочка 2)
Создание файла robots.txt для Joomla займет у вас не так много времени, но зато в дальнейшем вы будете избавлены от многих проблем.
На этом все.
Если вы не желаете пропустить появление новых материалов на блоге «Seo записки отчаянной«, то предлагаю вам подписаться на обновления в удобной для вас форме.
Удачи!
Возможно Вам это будет интересно:
Вам понравилась статья? Расскажите о ней друзьям!