ПоискПочтаКартыМаркетНовостиСловариБлогиВидеоКартинки
    Войти

    Пресс-портреты

    Пресс-портреты в Яндекс.Новостях — справочная информация о людях, упоминаемых в сообщениях СМИ: даты рождения и смерти, места работы, должности, их высказывания и мнения третьих лиц. На главной странице проекта собраны ключевые отставки и назначения текущего дня, дни рождения и самые упоминаемые в сегодняшних новостях персоны.

    Как формируются пресс-портреты?

    В пресс-портрете на сегодняшний день представлено три типа сведений о человеке: свободные определения человека, послужной список и цитаты. Свободные определения — это звания (полковник, доцент), ученые степени (доктор экономических наук), профессии (литературный критик, известный адвокат) и любые другие описания (хороший семьянин, старый знакомый Маши Ивановой, самый богатый человек в мире). В послужной список входят факты, состоящие из названия организации (Юкос, Министерство экономического развития) и должности (президент, генеральный директор, секретарь), которую человек в ней занимал, занимает (или займет в будущем). В третьем блоке содержатся цитаты человека и цитаты о нем других людей. Каждый факт снабжен текстовой иллюстрацией — фрагментом новостного сообщения, из которого была извлечена эта информация. Кроме того, для каждого факта можно получить все его упоминания в Яндекс.Новостях.

    Процесс автоматического составления пресс-портрета по материалам сообщений из Яндекс.Новостей состоит из двух основных этапов.

    1. Выделение фактов из текста: объекты и отношения между ними.
    2. Формирование пресс-портрета: кластеризация фактов, группировка фактов, относящихся к одному человеку.

    На первом этапе выделяются обозначения типизированных объектов: ФИО, название организации, описание организации, должность, географическое название. Основной принцип выделения объектов состоит в выделении опорных (ключевых слов) слов, которые могут быть вершинами синтаксических групп, являющихся обозначением соответствующих объектов. Так, по ключевому слову для должности "директор" могут быть построены следующие должности:

    • генеральный директор, директор департамента маркетинга, директор по развитию бизнеса

    Важным достоинством такого подхода является то, что объект может быть определен в тексте, даже если его имени (фамилия, название организации, название географического пункта) нет в словаре.

    На следующем шаге распознаются неразрывные цепочки, состоящие из построенных объектов:

    • [Председатель правления] [нефтяной компании] [ЮКОС] [Михаил Ходорковский]

    Цепочки характеризуется порядком следования объектов, согласованием отдельных элементов или определенными грамматическими характеристиками объектов. Для распознавания цепочек используется набор шаблонных правил, которые позволяют задавать все эти характеристики.

    Отношение "занимать должность в организации" может также выражаться предикатом, при этом объекты могут быть расположены неконтактно:

    • Сегодня [Сергей Абрамов] указом президента утвержден в должности [председателя правительства] [Чечни]

    Для распознавания таких случаев используется модуль фрагментационного анализа, разбивающий предложение на простые фрагменты и определяющий вершину каждого фрагмента (подлежащее и сказуемое для простых предложений). Кроме того, подключается словарь предикативных вершин (глаголы, причастия, предикативные словосочетания), в котором для каждой вершины описаны все ее актанты (участники ситуации) и способы их выражения в предложении (порядок следования и морфологическая информация).

    Свободным определением человека может быть практически любая именная группа, вершиной которой является одушевленное существительное. Группа может быть в препозиции к ФИО, может быть обособлена в постпозиции или являться именным сказуемым при подлежащем-ФИО (тогда они разделены тире). И для должностей, и для свободных определений обязательно проверяется согласование с ФИО по падежу и числу.

    На втором этапе извлеченные факты объединяются в пресс-портрет. Поскольку существуют однофамильцы, совпадение ФИО у двух фактов не является достаточным основанием для утверждения, что они относятся к одному человеку. Два факта, у которых ФИО может обозначать одного человека, признаются относящимися к одному человеку (входят в один пресс-портрет), если выполняется одно из двух общих условий: они были извлечены из одного текста (предложения) или они схожи лексически. На лексическое сходство в зависимости от типа сравниваемых фактов накладываются разные ограничения. Так, два факта войдут в один пресс-портрет, если похожи названия организаций: одно является сокращением другого (NSN и Nokia Siemens Networks), оба названия — разные формы одного слова (нападающий "Барселоны" и нападающий ФК "Барселона"), одно название является транслитерацией другого (Yandex и Яндекс), два названия идентичны с точностью до опечатки и т.д. При этом сходство должностей не проверяется. Если сравниваются факт (место работы и должность) и свободное определение, учитываются и должность, и описание организации. При принятии решения, принадлежат ли два факта одному пресс-портрету учитывается и частотность ФИО в массиве, и частотность слов, входящих в пересечение.

    Идеальный результат — "один человек — один пресс-портрет" — достигается далеко не всегда, но ресурсы для улучшения алгоритма есть, и мы будем экспериментировать дальше.

    Насколько полезен вам был этот раздел Помощи?Спасибо!
    Спасибо! Ваш отзыв поможет нам улучшить Помощь.