Robots.txt
Robots.txt (в русскоязычной транслитерации - "роботс") - файл, позволяющий регулировать индексацию веб-ресурса ведущими поисковиками. Этот текстовый документ размещается в основной директории сайта.
Общая информация и принципы работы
Первым делом поисковые боты, оказываясь на сайте, обращаются к файлу роботс, который позволяет им узнать, какие страницы, разделы и иные категории необходимо проигнорировать. Тут же робот получает данные о расположении карты сайта в формате XML и сведения о динамических параметрах в URL-адресах.
С помощью Robots.txt можно исключить из поиска дубликаты веб-страниц, все страницы ошибок, что позволит не только улучшить ранжирование ресурса, но и поднять на новый уровень комфорт пользователя в процессе посещения сайта.
Создать этот текстовый документ можно в любом редакторе, задав ему это имя. Но его содержание должно удовлетворять имеющимся требованиям и правилам. Подготовленный с учетом всех особенностей файл загружается в корень сайта на хостинге или сервере.
Важные директивы:
-
User-agent. С помощью данного файла можно управлять доступом к веб-сайту различных поисковых роботов - Яндекса, Гугла и т.д. После нахождения записи User-agent осуществляется поиск подстроки с названием соответствующего поисковика. Так, для Яндекса задаются такие значения - Yandex, YandexBot или *. В первом случае файл будет использоваться всеми поисковыми роботами, во втором - только основным ботом индексации, а в третьем - не будет индексироваться роботами вообще.
-
Disallow. Этой директивой определяется запрет доступа к ресурсу в целом или отдельным его элементам. Значение "/" - полный запрет, "/cgi-bin" - запрет индексации только для страниц, которые начинаются с /cgi-bin.
- Host. С помощью этой директивы можно указать имя главного зеркала, если у сайта есть дополнительные зеркала. Для этого напротив Host указывается нужный URL-адрес. При доступе по защищенному каналу также нужно задать HTTPS и при необходимости номер порта.
Пример robots.txt
Вот несколько примеров использования robots.txt для сайта www.example.com :
URL файла robots.txt: www.example.com/robots.txt
Блокирование доступа всех поисковых роботов к любому контенту
Пользовательский агент: * Disallow: /
Использование этого синтаксиса в файле robots.txt укажет всем поисковым роботам не сканировать никакие страницы на www.example.com , включая домашнюю страницу.
Предоставление всем поисковым роботам доступа ко всему контенту
Пользовательский агент: * Disallow:
Использование этого синтаксиса в файле robots.txt указывает поисковым роботам сканировать все страницы на www.example.com, включая главную.
Блокировка определенного поискового робота из определенной папки
Пользовательский агент: Googlebot Disallow: / example-subfolder /
Этот синтаксис указывает только поисковому роботу Google (имя агента пользователя Googlebot) не сканировать страницы, содержащие строку URL www.example.com/example-subfolder/ .
Блокирование определенного поискового робота с определенной веб-страницы
Пользовательский агент: Bingbot Disallow: /example-subfolder/blocked-page.html
Этот синтаксис указывает только сканеру Bing (имя пользовательского агента Bing) избегать сканирования определенной страницы по адресу www.example.com/example-subfolder/blocked-page.html.
Как работает robots.txt?
У поисковых систем есть две основные задачи:
- Сканирование Интернета для обнаружения контента;
- Индексирование этого контента, чтобы его могли обслуживать искатели, ищущие информацию.
Чтобы сканировать сайты, поисковые системы переходят по ссылкам с одного сайта на другой - в конечном итоге просматривая многие миллиарды ссылок и веб-сайтов. Такое ползание иногда называют «пауками».
После перехода на веб-сайт, но перед его просмотром, поисковый робот будет искать файл robots.txt. Если он найдет его, сканер сначала прочитает этот файл, прежде чем продолжить просмотр страницы. Поскольку файл robots.txt содержит информацию о том, как поисковая система должна сканировать, найденная там информация будет указывать на дальнейшие действия сканера на этом конкретном сайте. Если файл robots.txt не содержит директив, запрещающих действия агента пользователя (или если на сайте нет файла robots.txt), он продолжит сканирование другой информации на сайте.
Что такое RSS
RSS (син. РСС) — особый формат передачи информации с сайта, кратко отображающий содержимое.
Трансляция контента в ленту новостей - для сайта плюс в карму, потому что просмотр новой информации в виде ленты прост для пользователя.