Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информационные системы.doc
Скачиваний:
23
Добавлен:
01.06.2015
Размер:
236.54 Кб
Скачать

Семантические методы

В последнее время в технологии поиска все чаще стали внедряться элементы контент-анализа, методологии возникших в конце XIX - начале ХХ вв. Эта методология, изначально ориентированная на применение в психологии и социологии, сегодня все чаще используется в разного типа автоматизированных системах. Различают количественный и качественный контент-анализ. Если качественный контент-анализ базируется на глубоком лингвистическом и семантическом анализе отдельных предложений и всего текста, то основой количественного контент-анализа являются статистические подходы.

В последнее время получили развитие такие направления контент-анализа, как "Data Mining" и "Text Mining", которые предполагают автоматическое выявление нового смысла из текстовых массивов, новых данных, феноменов, фактов - знаний. Все чаще возникают попытки привлечения методов контент-анализа, а точнее Text Mining в реальные поисковые системы. И эти попытки не умозрительны - они обусловлены объемами и темпами роста Сети. Во многие современные сетевые поисковые системы внедрены такие компоненты, как: автоматическая группировка документов, по определенному заранее классификатору; автоматическое определение новых, не заданных заранее классов, на основе неструктурированных или слабо структурированных документов; ранжирование документов по смысловой релевантности; выявление семантически подобных документов - поиск подобных документов на основе эталона; автоматический анализ и смысловое преобразование запросов пользователей.

"Сюжетный" подход

При поиске новостной информации всегда возникает задача нахождения и объединения в сюжетные темы документов, описывающих одни и те же события и ранжирования сюжетов по некоторым признакам, что должно обеспечить, не только выявления самой важной темы, но и "веерное" многоаспектное освещение всех наиболее значимых событий.

Эта задача, решаемая во многих системах с использованием различных подходов и алгоритмов. При этом неизменной остается технологическая цепочка: построение семантической сети из документов, кластеризация - автоматическое выявление наиболее взаимосвязанных групп, т.е. сюжетов, "взвешивание" этих сюжетов и наглядная визуализация самых важных из них. Основные факторы, влияющие на ранжирование по важности - оперативность информации и размер сюжетной цепочки. Под оперативностью понимается некоторая функция от времени публикации всех сообщений в сюжете, а размер сюжета отражает общий интерес к конкретной теме. Во всех этих подходах центральная задача состоит в отождествлении cообщений, относящихся к одному сюжету и выявление "непересекающихся" сюжетов.

Например, в системе Яндекс.Новости (http://news.yandex.ru) для этого строится матрица попарной близости документов, которая обрабатывается алгоритмом кластеризации с эмпирически подобранными параметрами (в частности, радиусом метрики близости). Для того, чтобы увеличить связность крупных сюжетов, в Яндекс.Новости дополнительно используется кластеризация второго уровня, обеспечивающая сбор атомарных кластеров в более крупные. В результате внедерения системы все сообщения в результатах поиска на сайте Яндекс.Новости сгруппированы по сюжетам, при этом ранжирование построено на стандартных для Яндекса принципах ранжирования сгруппированной выдачи. Оно основано на числе и ранге новостей внутри новостных сюжетов, при этом ранг одной новости определяется как ее свежесть с учетом приоритетов текстуального совпадения.

В системе InfoStream (http://infostream.ua) тематическая близость документов определяется на основе нормированных последовательностей наиболее весомых ключевых слов, входящих в каждый документ. Последовательности подобных (с определенным коэффициентом близости, превышающий некоторый установленный эмпирически) документов образуют цепочки. При этом каждый документ попадает в какую-нибудь цепочку, в крайнем случае, состоящую только из него самого. Затем цепочки взвешиваются по длине и оперативности, после чего пользователю предъявляется определенное количество самих важных тематических сюжетов. Для репрезентации сюжетной цепочки, заголовки документов также взвешиваются относительно ключевых слов, соответствующих сюжету, а затем из всех заголовков выбираются наиболее "весомые" для отображения.

Следует обратить внимание, что задача автоматического построения качественных тематических сюжетов на основе потоков сетевой новостной информации сегодня практически решена. Например, полностью автоматические средства системы InfoStream, обрабатывая поток новостной информации, превышающий 20000 документов в сутки, обеспечивают полноту свыше 80% и точность около 95%.