Google индексирует файлы со списком того, что нельзя индексировать

image

В списке рассылки Seclists Full Disclosure развернулась любопытная дискуссия о том, считать ли уязвимостью специфичное поведение поисковой системы Google. Дело в том, что поисковый бот индексирует файлы со списком директорий, которые запрещено индексировать. Речь идёт о файлах robots.txt, в которых веб-мастера часто указывают список таких директорий. Это могут быть админские интерфейсы (/admin) или другие системы, не предназначенные для всеобщего доступа (/backup, /password и проч.).

Эта информация представляет некоторую ценность для нападающего, потому что даёт ему возможность быстро найти места хранения секретной информации. За примерами далеко ходить не надо:

http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+Disallow%3A+%2Fadmin
http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+Disallow%3A+%2Fbackup
http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+Disallow%3A+%2Fpassword

Подобные поисковые запросы злоумышленник может использовать для поиска жертв.

http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+%2FDisallow%3A+wp-admin
http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+%2FDisallow%3A+typo3

Список можно продолжать.

Естественно, веб-мастера могут защититься от таких атак. Первым приходит вариант запретить индексирование robots.txt в самом файле robots.txt, но такой вариант с Google не пройдёт. Но есть другой способ: просто не указывать такие папки в файле robots.txt, а вместо этого проверять идентификатор посетителя и запрещать доступ роботов по этому адресу, выдавая на попытку доступа ошибку 404, или закрыть папки через htaccess, так что робот получит ошибку 401. Но всё это не отменяет вопроса: зачем вообще Google индексирует служебные файлы robots.txt и включает их в поисковую выдачу?

Ситуация в каком-то смысле парадоксальная. Можно составить примерно такой диалог:

Злоумышленник: Google, можешь показать сайты с открытыми директориями /wp-admin/?
Google: Нет, я не знаю таких директорий, мне запрещено их индексировать.
Злоумышленник: Хорошо, тогда можешь дать список хостов, где есть robots.txt с инструкцией на запрет индексировать /wp-admin/?
Google: Конечно, вот пожалуйста.

Подробнее: http://www.xakep.ru/post/59801/default.asp

Читать комменты и комментировать

Добавить комментарий / отзыв



Защитный код
Обновить

Google индексирует файлы со списком того, что нельзя индексировать | | 2012-12-12 23:47:00 | | Статьи об Интернет безопасности | | В списке рассылки Seclists Full Disclosure развернулась любопытная дискуссия о том, считать ли уязвимостью специфичное поведение поисковой системы Google. Дело в том, что поисковый бот индексирует | РэдЛайн, создание сайта, заказать сайт, разработка сайтов, реклама в Интернете, продвижение, маркетинговые исследования, дизайн студия, веб дизайн, раскрутка сайта, создать сайт компании, сделать сайт, создание сайтов, изготовление сайта, обслуживание сайтов, изготовление сайтов, заказать интернет сайт, создать сайт, изготовить сайт, разработка сайта, web студия, создание веб сайта, поддержка сайта, сайт на заказ, сопровождение сайта, дизайн сайта, сайт под ключ, заказ сайта, реклама сайта, хостинг, регистрация доменов, хабаровск, краснодар, москва, комсомольск |
 
Поделиться с друзьями: