Как Яндекс индексирует сайты и полезные советы

Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса.

Какие бывают индексирующие роботы
В Яндексе есть несколько видов роботов, которые выполняют разные функции. Например, есть робот, который индексирует rss-ленту для поиска по блогам. Или робот, который индексирует только картинки. Самый важный — основной индексирующий робот, функция которого — поиск и индексирование информации для формирования базы основного поиска.
В помощь основному есть быстрый робот — он предназначен для оперативного индексирования свежей, актуальной на данный момент информации. Если среди проиндексированных страниц своего сайта вы видите две копии какого-либо документа — скорее всего это означает, что помимо основного робота документ также был проиндексирован и быстрым роботом.

Как добавить сайт
Чтобы сайт появился в поиске Яндекса, робот должен проиндексировать его. Если на ваш сайт есть ссылки с других (чужих) сайтов, то специально добавлять сайт не требуется — он автоматически будет найден и, скорее всего, проиндексирован.
Если ссылок на ваш сайт еще нет, вы можете сообщить о сайте, добавив его в раздел Мои сайты Яндекс.Вебмастера и подтвердить на него права одним из способов.
Примечание. Добавление сайта в сервис не гарантирует, что сайт будет проиндексирован или проиндексирован быстро.

Какие страницы есть в индексе
Проверить страницы сайта, участвующие в поиске, можно несколькими способами:
В разделе Индексирование (Статистика). В этом случае необходимо авторизоваться Яндекс.Вебмастере и подтвердить права на управление сайтом.
С помощью оператора запроса url:. Для проверки адреса в поисковой строке введите оператор запроса url:, адрес сайта и «*». Например: url:www.example.com*. Так же вы можете проверить адрес конкретной страницы. Например: url:www.example.com/news.
Чтобы получить подробную информацию о странице (дату последней загрузки страницы, наличие ошибки при последней загрузке и др.), воспользуйтесь сервисом Проверка URL, если вы подтвердили права на управление сайтом.
Внимание! В некоторых случаях страницы могут временно не показываться в поиске, несмотря на то, что они проиндексированы. Чтобы узнать какие именно поддомены сайта индексируются, вы можете воспользоваться операторами языка запросов host или rhost.

Запрет на индексирование сайта
Индексирование сайта может быть запрещено либо по причинам технического характера (страницы содержат ошибки и их содержимое невозможно корректно проиндексировать или индексирование сайта запрещено в файле robots.txt) либо за использование недобросовестных приемов продвижения сайтов в поисковых системах (поисковый спам).

Удаление сайта
Как исключить сайт или некоторые страницы из поиска?
Удалите страницы со своего сайта (таким образом, чтобы сервер при обращении по заданному URL возвращал HTTP-статус с кодом 404 Not found) либо запретите их индексирование в robots.txt. Затем воспользуйтесь формой Удалить URL.
При следующем обходе роботом вашего сайта все удаленные и запрещенные к индексированию страницы будут исключены из результатов поиска.
Рекомендуем просмотреть урок Как удалить страницу из поиска.
В выдаче Яндекса содержится информация, удаленная с сайта за нарушение авторских прав. Пожалуйста, примите меры.
Как только робот обнаружит, что страница удалена, он удалит ее из индекса. Чтобы ускорить этот процесс, воспользуйтесь формой Удалить URL.

Индексирование AJAX-сайтов
Робот Яндекса может проиндексировать AJAX-сайт, если структура сайта подчиняется определенным правилам.
Каждая индексируемая AJAX-страница должна иметь HTML-версию. Чтобы показать роботу наличие HTML-версии страницы, включите восклицательный знак в URL страницы:
http://www.example.com/#blog > http://www.example.com/#!blog
Обнаружив в ссылке на страницу сочетание «#!», робот запросит HTML-версию.
1. HTML-версия каждой AJAX-страницы должна быть доступна по адресу, в котором сочетание «#!» заменено на параметр «?_escaped_fragment_=». Для приведенного примера HTML-версия страницы расположена по адресу http://www.example.com/?_escaped_fragment_=blog.
Во всех найденных ссылках робот заменяет сочетание «#!» на параметр «?_escaped_fragment_=» и обращается по измененному адресу (ссылки, содержащие «#!», также можно использовать в карте сайта).
2. HTML-версия главной страницы должна быть доступна по адресу с добавлением параметра «?_escaped_fragment_=». Например: http://www.example.com/?_escaped_fragment_=. Обратите внимание: значение параметра должно быть пустым.
Чтобы сообщить роботу о HTML-версии главной страницы, в код страницы следует включить мета-тег.
Этот мета-тег можно использовать на любой AJAX-странице. Например, если страница доступна по адресу http://www.example.com/blog и содержит мета-тег, то робот проиндексирует HTML-версию страницы по адресу http://www.example.com/blog?_escaped_fragment_= .
Примечание. В HTML-версии документа мета-тег размещать не следует: в этом случае страница не будет проиндексирована.
Ссылка в результатах поиска направит пользователя на AJAX-версию страницы.

Индексирование офисных документов и Flash
Яндекс индексирует не только HTML документы. Кроме них индексируются документы следующих типов: PDF, Flash (Adobe Systems); DOC/DOCX, XLS/XLSX, PPT/PPTX (MS Office); ODS, ODP, ODT, ODG (Open Office); RTF, TXT.
Существуют некоторые ограничения на типы индексируемых данных:
В документах PDF индексируется только текстовое содержимое. Текст, представленный в виде картинок, не индексируется.
Во flash документе индексируется текст, который размещен в блоках: DefineText, DefineText2, DefineEditText, Metadata.
Ссылки индексируются, если они размещены в блоках: DoAction, DefineButton, DefineButton2.
Следует учитывать, что после выхода новых версий программ реализация поддержки новых форматов может занять некоторое время.
Документы больше 10 МБ не индексируются.

Как ускорить индексирование
Чтобы ускорить появление страниц сайта в Поиске:
Запретите в файле robots.txt индексирование страниц, неинтересных пользователям. Например, формы ответа на форуме, статистику посещений, страницы с результатами поиска, сайты-зеркала, документы на нераспространенных в рунете языках.
Создайте файл Sitemap с дополнительной информацией о страницах сайта, подлежащих индексированию.
Создайте страницу или несколько страниц, которые содержат ссылки на все документы сайта.
Настройте сервер на выдачу правильного HTTP-статуса (например, если страница не существует, сервер должен отправлять HTTP-статус 404 Not Found).

Оформление результатов поиска

Сниппеты страниц

Что такое сниппет?
Как изменить заголовок и описание сайта в результатах поиска?
Что представляют из себя навигационные цепочки?
Для каких страниц в сниппетах показываются даты?
Какие специальные данные могут быть показаны в сниппетах?

Что такое сниппет?
Сниппет — это блок информации о найденном документе, который отображается в результатах поиска. Сниппет состоит из заголовка и описания или аннотации документа, а также может включать дополнительную информацию о сайте.
Сниппет позволяет пользователю получить представление о документе или даже искомую информацию, не открывая сам документ.

Как изменить заголовок и описание сайта в результатах поиска?
Заголовок сниппета может составляться на основе HTML-элемента title. Описание сайта — на основе мета-тега .
Если элемент title и мета-тег отсутствуют или по мнению робота Яндекса плохо описывают документ, будут выбраны более информативные описание и заголовок, содержащиеся в тексте документа.

В таком случае описание найденного документа, как правило, составляется автоматически на основе цитат из текста документа. Также может быть использовано описание сайта, предоставляемое Яндекс.Каталогом или DMOZ, — если такое описание точнее отвечает запросу и содержимому документа, чем сформированная аннотация.

Чтобы отказаться от описаний из Каталога, в HTML-коде страниц разместите мета-теги и соответственно.

Также могут быть использованы данные, размеченные по стандарту Open Graph, если алгоритмы Поиска сочтут их наиболее информативными. Чтобы добавить информацию для формирования сниппетов, в HTML-коде страниц внутри элемента head укажите заголовок страницы и название сайта в свойствах og:title и og:site_name.

Таким образом, вы можете влиять на заголовки и описания ваших документов в результатах поиска, меняя заголовки и тексты документов на вашем сайте.

Что представляют из себя навигационные цепочки?

Для крупных сайтов, имеющих хорошо выраженную структуру, под сниппетом может показываться навигационная цепочка (ряд ссылок на разделы сайта, к которым относится найденная страница). Такая цепочка позволяет быстро оценить объем информации на сайте или тип контента, и при необходимости за один клик перейти в нужный раздел.

Для распознавания структуры сайта и выбора названий использован алгоритм быстрых ссылок. Как для быстрых ссылок, рекомендации для вебмастера заключаются в том, чтобы делать более понятную и простую структуру сайта. Никаких других специальных действий для включения этой функциональности не требуется.

Чтобы навигационные цепочки сформировались должны быть выполнены следующие условия, которые учитываются нашими алгоритмами:
Навигационные цепочки строятся только для крупных сайтов.
Навигационные цепочки строятся строго по каталогам: дерево разделов сайта должно соответствовать URL. Для адресов вида /index.php?cat=7873&item=6787 цепочек не сформируются, но они будут строиться для адресов вида /cat7873/item6787.
Для выбора названий используются элемент title и тексты ссылок на страницу. Рекомендуем давать короткое название странице в элементе title и в ссылках. И желательно, чтобы они (title и название ссылок) совпадали.

Для каких страниц в сниппетах показываются даты?

Дата публикации показывается в тех случаях, когда она имеет значение для пользователя, например, для новостных сообщений или записей в блогах. Видя дату, пользователь может быстро сориентироваться, то ли это сообщение, которое его интересует.
Дата сообщения может определяться различными способами. В частности, в качестве источников данных о дате страниц используются сервисы Яндекс.Новости и Яндекс.Блоги.
Кроме того, информацию о датах Яндекс получает, разбирая адреса страниц (URL). Дата может содержаться в URL в виде определенного шаблона, например /yyyy/mm/dd/ или /yyyy-mm-dd/.
Если на вашем сайте есть новостная лента и вы хотели бы, чтобы наши алгоритмы определили даты новостных сообщений, настройте формирование URL так, чтобы в нем явным образом присутствовала дата (например, одним из указанных выше способов). Даты будут извлекаться при индексировании страниц поисковым роботом. Никаких дополнительных действий от вас не потребуется.

Какие специальные данные могут быть показаны в сниппетах?

В некоторых случаях сниппет может содержать дополнительную информацию, которую вебмастер может настроить самостоятельно. Это позволяет повысить информативность сниппета и предоставить пользователю дополнительные знания о сайте и компании.
В данный момент доступно добавление и редактирование следующей информации, которая будет учтена при формировании сниппета:
особенности компьютерных программ, приложений и игр;
вопросы и лучшие ответы;
быстрые ссылки на разделы сайта (допускается только редактирование автоматически определенных ссылок);
регистр названия сайта;
адрес организации;
подробные данные об организациях и их услугах.
данные о товарах (цены и информация о доставке интернет-магазина);
подробности кулинарных рецептов;
детальные данные о рефератах;
детальные описания фильмов;
описание творческих работ с указанием автора и жанра.