Перейти к содержанию

Миллион портретов на Яндекс.Новостях


Рекомендуемые сообщения

Интернет, 4 апреля 2006 года. Яндекс открыл доступ к справочной информации о людях, упоминаемых в российских СМИ. Теперь при поиске в Яндекс.Новостях пользователи видят ссылки на «пресс-портреты» тех, чьи имена более всего соответствуют заданному запросу. Пресс-портреты создаются автоматически специальной компьютерной программой; исходным материалом служат сообщения от СМИ.

 

Каждый пресс-портрет содержит опубликованную в СМИ краткую информацию о человеке: сведения о местах работы и должностях, прямую речь и высказывания третьих лиц. Все сведения о персоналиях сопровождаются фрагментами документов, из которых они были извлечены; это позволяет быстро понять контекст и достоверность информации. По сути, пресс-портрет — это еще один вариант страницы результатов поиска по Яндекс.Новостям. Искать людей можно не только по фамилии (например, «Анатолий Чубайс» или «Остап Бендер»), но и по названию организации (например, «Союзмультфильм», «Microsoft» или «Палата лордов») — в этом случае будут найдены все, кто, по сведениям СМИ, имеет или имел к ней отношение.

 

«В прошлом году на страницах службы появились "Новости в лицах" — рейтинги наиболее популярных персон, автоматически формируемые для каждого сюжета, рубрики или результатов поиска. Сегодня же мы начали применять технологии, которые позволяют не только определить, о ком идет речь в сюжете, но и дать справку по каждому участнику событий, — говорит Татьяна Платонова, руководитель службы Яндекс.Новости. — Пресс-портреты особенно полезны, когда СМИ пишут о тех, кто неизвестен широкой аудитории. Теперь за считанные секунды пользователь сможет разобраться, кто есть кто».

 

Новый сервис основан на уникальной технологии, принадлежащей компании «Яндекс». И извлечение фактов из текста, и группировка их в пресс-портрет (то есть определение, какие факты относятся к одному и тому же лицу) делается автоматически, без участия человека. «Впервые в России технология извлечения фактов (fact extraction) внедрена на массовом веб-сервисе и обрабатывает большие текстовые массивы. Назначение этой технологии — определять тождество различных обозначений одного объекта и различать объекты с одинаковыми именами, — говорит Лев Гершензон, ведущий разработчик компании "Яндекс". — Мы научились автоматически связывать два типа объектов — людей и организации. Несмотря на то, что сейчас мы получили важный результат, информация о персонах может оказаться неполной и неточной, ведь пресс-портреты составляются компьютерной программой. Мы планируем дорабатывать технологию и с благодарностью примем любые отклики и предложения по повышению качества сервиса».

 

С сегодняшнего дня Яндекс.Новости являются агрегатором не только новостной, но и справочной информации. Справочная часть службы Яндекс.Новости состоит более чем из 1 млн. пресс-портретов, 30 тыс. из которых обновляется ежедневно. Новостная служба Яндекса была открыта шесть лет назад, поэтому большая часть пресс-портретов создана на основе анализа сообщений СМИ с 2000 года; в настоящее время к службе подключаются архивы новостных источников за предыдущие годы, что повышает полноту и точность сервиса. Всего в базе Яндекс.Новостей на сегодняшний день хранится более 9 млн информационных сообщений от более 1000 источников.

 

Подробнее о технологии (http://news.yandex.ru/people-search-tech.html).

 

Ссылка на комментарий
Поделиться на другие сайты

Пресс-портреты на Яндекс.Новостях. Описание технологии

 

В пресс-портрете на сегодняшний день представлено три типа сведений о человеке: свободные определения человека, послужной список и цитаты. Свободные определения - это звания (полковник, доцент), ученые степени (доктор экономических наук), профессии (литературный критик, известный адвокат) и любые другие описания (хороший семьянин, старый знакомый Маши Ивановой, самый богатый человек в мире). В послужной список входят факты, состоящие из названия организации (Юкос, Министерство экономического развития) и должности (президент, генеральный директор, секретарь), которую человек в ней занимал, занимает (или займет в будущем). В третьем блоке содержатся цитаты человека и цитаты о нем других людей. Каждый факт снабжен текстовой иллюстрацией . фрагментом новостного сообщения, из которого была извлечена информация. Кроме того, для каждого факта можно получить все его упоминания в Я.Новостях.

 

Процесс автоматического составления пресс-портрета по материалам сообщений из Яндекс.Новостей состоит из двух основных этапов.

 

Выделение фактов из текста: объекты и отношения между ними.

Формирование пресс-портрета: кластеризация фактов, группировка фактов, относящихся к одному человеку.

На первом этапе выделяются обозначения типизированных объектов: ФИО, название организации, описание организации, должность, географическое название. Основной принцип выделения объектов состоит в выделении опорных (ключевых слов) слов, которые могут быть вершинами синтаксических групп, являющихся обозначением соответствующих объектов. Так, по ключевому слову для должности «директор» могут быть построены следующие должности:

генеральный директор, директор департамента маркетинга, директор по развитию бизнеса

Важным достоинством такого подхода является то, что объект может быть определен в тексте, даже если его имени (фамилия, название организации, название географического пункта) нет в словаре.

 

На следующем шаге распознаются неразрывные цепочки, состоящие из построенных объектов.

[Председатель правления] [нефтяной компании] [ЮКОС] [Михаил Ходорковский]

Цепочки характеризуется порядком следования объектов, согласованием отдельных элементов или определенными грамматическими характеристиками объектов. Для распознавания цепочек используется набор шаблонных правил, которые позволяют задавать все эти характеристики.

 

Отношение .занимать должность в организации. может также выражаться предикатом, при этом объекты могут быть расположены неконтактно.

Сегодня [Сергей Абрамов] указом президента утвержден в должности [председателя правительства] [Чечни]

Для распознавания таких случаев используется модуль фрагментационного анализа, разбивающий предложение на простые фрагменты и определяющий вершину каждого фрагмента (подлежащее и сказуемое для простых предложений). Кроме того, подключается словарь предикативных вершин (глаголы, причастия, предикативные словосочетания), в котором для каждой вершины описаны все ее актанты (участники ситуации) и способы их выражения в предложении (порядок следования и морфологическая информация).

 

Свободным определением человека может быть практически любая именная группа, вершиной которой является одушевленное существительное. Группа может быть в препозиции к ФИО, может быть обособлена в постпозиции или являться именным сказуемым при подлежащем-ФИО (тогда они разделены тире). И для должностей, и для свободных определений обязательно проверяется согласование с ФИО по падежу и числу.

 

На втором этапе извлеченные факты объединяются в пресс-портрет. Поскольку существуют однофамильцы, совпадение ФИО у двух фактов не является достаточным основанием для утверждения, что они относятся к одному человеку. Два факта, у которых ФИО может обозначать одного человека, признаются относящимися к одному человеку (входят в один пресс-портрет), если выполняется одно из двух общих условий: они были извлечены из одного текста (предложения) или они схожи лексически. На лексическое сходство в зависимости от типа сравниваемых фактов накладываются разные ограничения. Так, два ФДО-факта войдут в один пресс-портрет, если похожи названия организаций: одно является сокращением другого, оба названия . разные формы одного слова, одно название является транслитерацией другого, два названия идентичны с точностью до опечатки и т.д. При этом сходство должностей не проверяется. Если сравниваются ФДО-факт и свободное определение, учитываются и должность, и описание организации. При принятии решения, принадлежат ли два факта одному пресс-портрету учитывается и частотность ФИО в массиве и частотность слов, входящих в пересечение.

 

Идеальный результат - «один человек - один пресс-портрет» - достигается далеко не всегда, но ресурсы для улучшения алгоритма есть, и мы будем экспериментировать дальше.

Ссылка на комментарий
Поделиться на другие сайты

Заархивировано

Эта тема находится в архиве и закрыта для дальнейших ответов.

×
×
  • Создать...