У вас есть вопрос по рекламе в интернете и раскрутке сайтов? Задайте его здесь и вам ответят. Вы уже всё знаете? Помогите тем, кто знает пока не всё. Правила форума|
Сделать стартовой|Добавить в избранное.
28 Авг 2005 Вс 00:45 Главные новости дня в лицах на Яндекс Новости
На сервисе Яндекс Новости справа появились "Главные новости в лицах".
Яндекс использовал партнерство с компанией "Интегрум".
В блоге Яндекса Лев Гершензон, руководитель отдела лингвистических разработок компании "Интегрум" рассказал о том как делаются главные новости дня в лицах.
Идея делать автоматические именные указатели была навеяна нам с Димой Панкратовым полтора года назад журналом "Власть" и его "Лица, упомянутые в номере". Поскольку журналов, газет и прочих поставщиков текстовых документов в "Интегруме" больше трех тысяч, мы решили не мелочиться и сделать подобный именной указатель, но один для всех источников и полностью автоматический. Это, было названо "Сегодня в лицах" и опубликовано на http://labs.integrum.ru . Оказалось, что сервис дает представление о событиях дня, ориентирует пользователя в новостном потоке.
В большинстве случаев (малочисленные путины, фрадковы, грефы - не в счет), один человек за короткий промежуток времени (1-3 дня) упоминается как участник одного события. Мне показалось, что рубрики и сюжеты Яндекс.Новостей станут интереснее, а главное, читатель сможет быстрее и лучше понять, что к чему, если применить к ним ту же технологию. В Яндексе (Митя Иванов и Илья Сегалович) эту идею поддержали. Году не прошло, и теперь каждый может сам оценить, насколько это удобно (красиво, смешно:).
На первом этапе из новостных текстов выделяются обозначения людей с помощью морфологической информации, словарей имен собственных и специальных алгоритмов анализа. На втором этапе внутри одного текста и на множестве документов программа отождествляет формально различные обозначения одного человека (ср. Борис Ельцин - Ельцин Борис Николаевич - Б. Н. Ельцин). На последнем этапе из обозначений людей отбирается N самых упоминаемых - тех, о которых написано в наибольшем количестве текстов. Главной особенностью программы является отсутствие какого бы то ни было заранее заданного списка людей - новые несловарные фамилии автоматически определяются и приводятся к словарной форме по специфическому контексту (имя, инициалы и др.). Кроме того, с высокой точностью разграничиваются однофамильцы и разрешается родовая омонимия (ср. Валентина Матвиенко, Александра Лебедева - мужчина или женщина?).
В принципе, ничего сложного тут нет. А ошибок бы и вовсе не было, если бы все имена и фамилии были в словаре.
Перечислю несколько самых частотных проблем:
1. Имена омонимичны обычным словам. В самом начале в "Сегодня в лицах
фигурировали" такие персонажи: Гера Советского, Вячеслав Богу, Надежда
Доброй.
2. Фамилии могут совпадать с отчествами. Бывшие бизнес партнеры Борис Абрамович Березовский и Роман Аркадьевич Абрамович и в придачу президент компании КрасЭйр Борис Михайлович Абрамович доставили нам немало хлопот.
3. Некоторые фамилии склоняются, некоторые нет. И если их нет в словаре, по их внешнему виду (по буквам) понять, к какому типу относится фамилия (и если склоняется, то как), далеко не всегда удается.
Ардзинба и Анкваба. Знаете, что первая фамилия в именительном падеже, а вторая в родительном? А так похожи.
4. Мужские и женские имена тоже очень часто имеют общие формы (см. выше).
5. Есть такие народы, в которых одного имени человеку недостаточно. Мы этого не понимаем и ошибаемся. Без энциклопедического багажа совершенно не понятно, сколько человек тут упомянуто: Джон Рональд Руэл Толкиен.