Советы по корректному использованию файла robots.txt
В одном из своих твитов я упомянул, что robots.txt это зло и чем он больше, тем больше зла он приносит сайту. Встретив много непонимания, в том числе и на данный момент, когда мнения оптимизаторов четко разделяются по этому вопросу, когда некоторые вебмастера используют старые рекомендации, хочется внести некую ясность в использование этого файла в текущих условиях.
Понятно, что в robots.txt используются разные директивы. Среди них есть много полезных:
- Host: для указания основного хоста для Яндекса
- Sitemap: для указания адреса карты сайта
- Crawl-Delay: для указания минимальной задержки между индексацией страниц (не для всех поисковиков).
Также есть директива Disallow (и Allow как противоположная). Именно о них и пойдет речь в данной статье.
С какими проблемами сталкиваются вебмастера, используя robots.txt?
Первая и основная проблема, с которой сталкиваются вебмастера, это наличие в индексе Google страниц, закрытых в robots.txt. Считается, что если закрыть страницу или раздел в robots.txt, то она не попадет в индекс или выпадет из него, если там была. Это пока что работает так для Яндекса, Google воспринимает robots.txt по-другому.
Если обратиться к справке Google, то можно видеть, что robots.txt — это не правило, а рекомендация. И она означает “не сканировать страницу”, а не “не добавлять её в индекс”. Страница по прежнему может попасть в индекс, если на неё была найдена ссылка внутри сайта или где-то на внешнем ресурсе.
Вроде бы ничего страшного, но наличие подобных страниц в индексе, во-первых, плохо влияет на авторитет сайта (в связи с введением Пингвина, Яндекс пока работает по другому), и, во-вторых, подобный сниппет может снижать конверсию и ухудшать поведенческий фактор в поиске.
Для закрытия дублей страниц лучше использовать внутренние средства CMS, а не стараться упростить себе жизнь файлом robots.txt. Тем более, что файл может по каким-то причинам быть недоступен (перенесли на другой сервер, забыли, переименовали и так далее) и в таком случае все закрытое становится резко открытым (наверное как в случае с прошлой утечкой информации из wiki.yandex-team.ru).
Во-вторых, закрывая всё подряд, можно случайно закрыть важные вещи. Например, закрывая в Wordpress всю папку /wp-content/, можно остаться без трафика по изображениям, которые хранятся в /wp-content/uploads/.
Тут хранятся изображения, но в поиске по картинкам их нет:
Так что, получается лучше совсем не использовать robots.txt? В некоторых случаях он всё же полезен (особенно, когда мы прописываем главное зеркало для Яндекса).
Для чего я рекомендую использовать robots.txt
- Для закрытия всего сайта при его разработке
Чтобы заранее в индекс не попало ничего лишнего. - Для закрытия сайта от левых поисковиков.
Например, Рунетовским сайтам нет смысла показываться в Yahoo! Если в этом поисковике нет целевой аудитории, то можно смело закрывать сайт, дабы не нагружать дополнительно свои сервера. - Для закрытия приватных разделов сайта от глаз робота.
Чтобы приватные данные (типа номера кредитных карт :) пароли или смс-ки пользователей) не попадали в индекс. Хотя логично эти разделы вообще не иметь открытыми на сайте. - Для снятия нагрузки на сервер
Если, к примеру, на вашем очень популярном сайте много функционала по сотрировке товара, или какие-то фильтры, которые требуют больших серверных ресурсов, можно не пускать робота к этим страницам, чтобы снять нагрузку. Хотя, опять же, логино было бы сделать функционал сортировки невидимым для робота в самой CMS, чем перекладывать ответственность на файл robots.txt.
Для чего я бы не рекомендовал использовать robots.txt
- Для закрытия индексации страниц пейджинга, сортировки, поиска
От дублей следует избавляться средствами CMS, например, 301 редиректом, тегом rel=canonical (который специально для этого был создан), 404 ошибкой или мета тегом robots noindex. - Для удаления уже существующих в индексе страниц
Частая ошибка вебмастеров, когда пытаются удалить страницы из индекса роботсом. Поисковый робот не сможет переиндексировать страницу и удалить её, если вы закроете к ней доступ через роботс. - Для закрытия админ-панели
Путь к админке виден в роботс. Так на конференции Optimization.by мы с коллегами злоумышленно получили доступ к одной админке сайта про курсовые работы, путь к которой узнали через robots.txt, а пароли были стандартные admin:admin. - Для закрытия других страниц, которые вы не хотите видеть в индексе
Используйте для этого любые другие методы
Любые комментарии приветствуются. Как вы используете свой robots.txt и сталкивались ли раньше с описанными проблемами?


Дайджест новых статей по интернет-маркетингу на ваш email
Новые статьи и публикации
- 2025-04-08 » Горшочек, рисуй: 10 бесплатных сервисов для генерации картинок
- 2025-04-08 » SEO-продвижение в 2025 году: 15 трендов, без которых ТОП не светит
- 2025-03-14 » SPF-запись
- 2025-03-07 » SEO на маркетплейсах: как оптимизировать карточку товара для поисковой выдачи
- 2025-02-18 » Топ-10 бесплатных нейросетей для генерации изображений: лучшие ии генераторы 2024 года
- 2025-02-11 » Критическая уязвимость в 1С-Битрикс
- 2025-02-11 » Google Search Console: руководство для начинающих вебмастеров
- 2025-02-11 » Методы измерения результативности рекламных кампаний: плюсы и минусы
- 2025-02-11 » Тренды SEO в 2025 году
- 2025-02-10 » Свой Google в локалке. Ищем иголку в стоге сена
- 2025-01-29 » SEO — это комплексная работа. Шесть главных факторов ранжирования сайтов
- 2025-01-29 » Гайд для главной страницы e-commerce сайта: как оформить, чтобы повысить конверсию
- 2025-01-20 » Krea AI выпустила бесплатную функцию преобразования изображений в 3D-объекты — их можно вращать и вписывать в фотографии
- 2025-01-19 » Отзывы на Яндекс Картах: как пройти модерацию
- 2025-01-15 » Топ-6 лучших российских нейросетей, в которых можно генерировать тексты и изображения бесплатно и без VPN
- 2025-01-14 » 15 бесплатных способов узнать, чем интересуется ваша аудитория
- 2025-01-11 » Бездепозитные бонусы в казино за регистрацию с выводом: особенности и возможности получения
- 2025-01-09 » Новая модель LAM способна выполнять задачи в Word
- 2024-12-26 » Универсальный промпт для нейросети: как выжать максимум из ChatGPT, YandexGPT, Gemini, Claude в 2025
- 2024-11-26 » Капитан грузового судна, или Как начать использовать Docker в своих проектах
- 2024-11-26 » Обеспечение безопасности ваших веб-приложений с помощью PHP OOP и PDO
- 2024-11-22 » Ошибки в Яндекс Вебмастере: как найти и исправить
- 2024-11-22 » Ошибки в Яндекс Вебмастере: как найти и исправить
- 2024-11-15 » Перенос сайта на WordPress с одного домена на другой
- 2024-11-08 » OSPanel 6: быстрый старт
- 2024-11-08 » Как установить PhpMyAdmin в Open Server Panel
- 2024-09-30 » Как быстро запустить Laravel на Windows
- 2024-09-25 » Next.js
- 2024-09-05 » OpenAI рассказал, как запретить ChatGPT использовать содержимое сайта для обучения
- 2024-08-28 » Чек-лист: как увеличить конверсию интернет-магазина на примере спортпита
Надобно иметь большое мужество, чтоб высказать громко вещи, потихоньку известные каждому. А. Герцен |
Мы создаем сайты, которые работают! Профессионально обслуживаем и продвигаем их , а также по всей России и ближнему зарубежью с 2006 года!
Как мы работаем
Заявка
Позвоните или оставьте заявку на сайте.
Консультация
Обсуждаем что именно Вам нужно и помогаем определить как это лучше сделать!
Договор
Заключаем договор на оказание услуг, в котором прописаны условия и обязанности обеих сторон.
Выполнение работ
Непосредственно оказание требующихся услуг и работ по вашему заданию.
Поддержка
Сдача выполненых работ, последующие корректировки и поддержка при необходимости.
Или напишите нам в WhatsApp
Или напишите нам в WhatsApp