ПоискПочтаКартыМаркетНовостиСловариБлогиВидеоКартинки
Войти

Словарная разметка

Что такое микроданные

Микроданные (HTML microdata) — это международный стандарт семантической разметки HTML-страниц с помощью атрибутов, описывающих смысл информации, содержащейся в тех или иных HTML-элементах. Такие атрибуты делают контент страниц машиночитаемым, то есть позволяют в автоматическом режиме находить и извлекать нужные данные.

Рассмотрим простой пример — определение термина «веб-страница»:

Веб-страница — самостоятельная часть веб-сайта; документ, снабженный уникальным адресом (URL).

HTML-разметка этого текста может выглядеть, например, так:

<div itemscope itemtype="http://webmaster.yandex.ru/vocabularies/term-def.xml">
  <span itemprop="term">Веб-страница</span> — 
  <span itemprop="definition">самостоятельная часть веб-сайта; документ, снабженный уникальным адресом (URL).</span>
</div>

Атрибут itemscope — ключевой атрибут микроданных. Он указывает, что содержимое данного HTML-элемента является единой структурой. Вложенные HTML-элементы, отмеченные атрибутом itemprop, являются свойствами этой структуры. В приведенном выше примере у структуры заданы свойства term и definition; значением свойства term является текст «Веб-страница». Благодаря разметке робот легко распознает в этом текстовом блоке сам термин и его определение.

Свойство может иметь в качестве значения текст, ссылку (URL), дату и/или время. Также свойство может само являться структурой и содержать вложенные свойства.

Важной характеристикой структуры itemscope является ее тип. Тип структуры определяет, какую сущность эта структура описывает: это может быть человек, организация, мероприятие, продукт, статья и т. п. Тип структуры (а точнее — ссылка на спецификацию типа) указывается в значении атрибута itemtype.

В настоящее время Яндекс поддерживает следующие типы структур:

Эти типы структур используются в партнерской программе сервиса Яндекс.Словари. Микроданные позволяют автоматически найти на страницах сайта-партнера информационные материалы, которые можно включить в словарный индекс (например, отличить глоссарий терминов от сведений о компании); извлечь такие смысловые блоки, как тематика и источник статьи, список литературы и т. п.

Ознакомиться со спецификацией микроданных HTML5 можно на сайте консорциума W3C и на сайте сообщества WHATWG.

Разметка для энциклопедической статьи

Тип структуры http://webmaster.yandex.ru/vocabularies/enc-article.xml предназначен для разметки энциклопедических статей, в особенности содержащих подробные сведения об определяемом термине, а также дополнительную информацию, такую как категория, список литературы, иллюстрации (пример).

Пример:

<div itemscope itemtype="http://webmaster.yandex.ru/vocabularies/enc-article.xml">
  <h2 itemprop="title">Барто Агния Львовна</h2> 
  <meta itemprop="category" content="Детская литература"> 
  <meta itemprop="category" content="Советские писатели"> 
  <div itemprop="content">Барто Агния Львовна [р. 4(17).2.1906, Москва], русская советская поэтесса. Начала 
    печататься в 1925. Пишет для детей — о жизни советской школы, семьи, пионерах. Автор сборников стихов: 
    "Братишки" (1928), "Мальчик наоборот" (1934), "Игрушки" (1936), "Снегирь" (1939), "Стихи детям" (1949; 
    Государственная премия СССР, 1950), "Я расту" (1968) и др., сценариев кинофильмов "Подкидыш" (1939), 
    "Слон и верёвочка" (1946), "Алеша Птицын вырабатывает характер" (1958) и др. Стихи Б., отмеченные мягким 
    юмором, ясностью языка, завоевали большую популярность у юных читателей и у взрослых; они переведены на языки
    народов СССР и многие иностранные языки. 
    В прозаических книгах для взрослых "Найти человека" (1969) автор рассказывает о своих поисках семей 
    детей, потерявшихся во время Великой Отечественной войны. Награждена 3 орденами, а также медалями.
    Соч.: Стихи детям, т. 1-2, М., 1966.
  </div> 
  <div itemprop="references">Лит.: Дмитриева В., Агния Барто, М.-Л., 1953; Соловьев Б., Агния Барто, М., 1967.</div> 
  <div>
    <span itemprop="author">Е. А. Таратута</span>.
    <span itemprop="source">БСЭ</span>,
    <span itemprop="source-date">1969-1978</span>.
  </div> 
  <img itemprop="photo" src="http://slovari.yandex.ru/illustrations/bse/fullsize/02222/543420.jpg"></img>
</div>

Структура типа http://webmaster.yandex.ru/vocabularies/enc-article.xml может содержать следующие свойства:

  • title — заголовок статьи.

  • content — текст статьи.

  • category — категория или тематика. Одна статья может относиться к нескольким категориям.

  • references — список литературы, ссылки и т. п.

  • author — автор: имя, ученое звание и другие регалии;

  • source — источник;

  • source-date — дата публикации (в указанном источнике и/или указанным автором, а не на сайте, где размещен глоссарий).

  • photo — иллюстрация. Иллюстраций может быть несколько.

Примечание. 

В большинстве случаев значением свойства является текст, содержащийся в HTML-элементе, отмеченном с помощью атрибута itemprop. Некоторые элементы являются исключениями:

  • Элемент <meta>: значением свойства является значение атрибута content (так, в приведенном выше примере структура содержит два экземпляра свойства category со значениями «Детская литература» и «Советские писатели»).

  • Элемент <img>: значением свойства является значение атрибута src (в приведенном выше примере значением свойства photo является ссылка на изображение).

  • Элемент <а>: значением свойства является значение атрибута href.

Полный список исключений см. в спецификации микроданных.

Разметка для определения термина

Тип структуры http://webmaster.yandex.ru/vocabularies/term-def.xml предназначен для разметки словарных статей, состоящих в основном из краткого определения или перевода термина. Этот формат должен использоваться во всех случаях, когда на одной странице размещено более одной статьи (термина) или более одного определения/перевода термина (пример).

Пример:

<div itemscope itemtype="http://webmaster.yandex.ru/vocabularies/term-def.xml">
  <p itemprop="term"> 
 <b>КОЛЛАЖ</b></p> 
  <ol>
    <li itemprop="definition" id="1">То же, что <i>аппликация</i>, т. е. создание изображения наклеиванием
      на материал-основу элементов этого изображения из материалов других цветов и фактур.</li>
    <li itemprop="definition" id="2">В широком смысле изобразительная композиция, полученная наклеиванием
      на материал-основу различных изображений, объединяемых таким образом в единую композицию.</li>
  </ol>  
  <p>
    <span itemprop="author">Мильчин А. Э.</span>
    <span itemprop="source">Издательский словарь-справочник.- Изд. 3-е, испр. и доп.,
      Электронное — М.: ОЛМА-Пресс</span>,
    <span itemprop="source-date">2006</span>.
  </p> 
</div>

Структура типа http://webmaster.yandex.ru/vocabularies/term-def.xml может содержать следующие свойства:

  • id — уникальный идентификатор термина или определения на странице (якорь), например, порядковый номер. Идентификатор должен быть указан во всех случаях, когда на одной странице размещено более одной статьи (термина) или более одного определения/перевода термина;

  • term — собственно термин;

  • definition — определение термина. У одного термина может быть несколько определений. В этом случае каждое определение должно иметь собственный идентификатор;

  • author — автор: имя, ученое звание и другие регалии;

  • source — источник;

  • source-date — дата публикации (в указанном источнике и/или указанным автором, а не на сайте, где размещен глоссарий);

Если определения взяты у разных авторов и из разных источников, то каждый набор определение+автор+источник необходимо обернуть в HTML-элемент с атрибутом itemscope (например, <span itemscope>).

Проверка правильности разметки

Проверить разметку на сайте можно с помощью валидатора микроразметки: http://webmaster.yandex.ru/microtest.xml.

Клавиатура
ruRu