Robots.txt и Sitemap xml (файлы позволяющие управлять индексацией сайта) очень важны для успешного развития вашего проект и это вовсе не голословное утверждение. В статье по Sitemap xml (см. ссылку выше) я приводил в пример результаты очень важного исследования по наиболее частым техническим ошибкам начинающих вебмастеров и там на втором и третьем месте (после не уникального контента) находятся как раз robots.txt и Sitemap xml, а точнее либо отсутствие этих файлов, либо их неправильное составление и использование.
Надо очень четко понимать, что не все содержимое сайта (файлы и директории), созданного на каком-либо движке (CMS Joomla, SMF или Вордпресс), должно быть доступно для индексации Яндексом и Гугле (другие поисковые системы я не рассматриваю, в силу их малой доли в поиске рунета).
Если не прописать определенные правила поведения в robots.txt для ботов поисковых систем, то при индексации в поисковые системы попадет множество страниц, не имеющих отношения к содержимому сайта, а также может произойти многократное дублирование контента информации (по разным ссылкам будет доступен один и тот же материал сайта), что поисковики не любят. Хорошим решением будет запрет индексации в robots.txt.
Для того, чтобы задать правила поведения для поисковых ботов используется файл robots.txt. С его помощью мы сможем влиять на процесс индексации сайта Яндексом и Google. Robot.txt представляет из себя обычный текстовый файл, который вы сможете создать, и в дальнейшем редактировать, в любом текстовом редакторе (например, Notepad++). Поисковый робот будет искать этот файл в корневом каталоге вашего сайта и если не найдет, то будет индексировать все до чего сможет дотянуться.
Поэтому после написания требуемого файла robots.txt (все буквы в названии должны быть в нижнем регистре — без заглавных букв) его нужно сохранить в корневую папку сайта, например, с помощью Ftp клиента Filezilla, так чтобы он был доступен по такому адресу: -- (например, мой файл robots.txt доступен по адресу http://ktonanovenkogo.ru/robots.txt).
Кстати, если вы хотите узнать как выглядит файл robots.txt того или иного сайта, то достаточно будет дописать к адресу главной страницы этого сайта /robots.txt. Это может быть полезно для определения наилучшего варианта для вашего файла robots.txt, но при этом надо учитывать, что для разных сайтовых движков оптимальный файл robots.txt будет выглядеть по разному (запрет индексации в robots.txt нужно будет делать для разных папок и файлов движка). Поэтому если вы хотите определиться с лучшим вариантом файла robots.txt>, допустим для форума на SMF, то и изучать файлы robots.txt нужно для форумов, построенных на этом движке.