Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информационные системы.doc
Скачиваний:
23
Добавлен:
01.06.2015
Размер:
236.54 Кб
Скачать

Кластеризация

В свое время создатели службы Oingo реализовали технологию выявления "смысла" слов путем построения обучаемой внутренней семантической сети. Сегодня наиболее интересной кажется технология, предлагаемая службой AltaVista (http://www.av.com/), обеспечивающая для реализации режима уточнения поиска (Refine Your Search) автоматическое определение классов, и последующую группировку (кластеризацию) откликов ИПС в соответствии ними. Например, в результате отработки запроса "network" (сеть) она предлагает следующие классы документов: Management; Solution; Catholic Church; Christian Organization; Domain Names; Blog; Economy; Moving; Project. В этой системе, как и в большинстве остальных, активизация соответствующего класса приводит к уточнению первоначального запроса.

Большинство же из современных интеллектуальных систем обеспечивает группировку своих откликов по заранее определенным классификаторам. Так система Vivisimo (http://www.vivisimo.com/) определила для запроса "network" такие классы: Solutions; Information Network; Security; Games; Organization; Computing; Project. Служба Lycos в режиме "Narrow Your Search" при этом определила такие классы: Carton Network; Dish Network; Food Network; Network Marketing; Home Shopping Network; Network Security. А система Google по этому же запросу выдала всего два класса: "Computers>Consultants>Network" и "Computers>Software>Operation System>Network".

Поиск по подобию

Если в результате поиска по запросу найдено избыточное количество документов, но при просмотре первых страниц результатов поиска найдено несколько пертинентных документов. Естественно, у пользователя возникает желание найти еще документы (или ссылки на них), сходные с ними по содержанию, не затрачивая интеллектуальных усилий на анализ и составление запроса.

Идя на поводу подобных желаний, многие ИПС реализовали опции "найти подобное", "похожие документы", "like this". Не всегда этот режим ведет к получению удовлетворительных результатов при целевом поиске, однако, иногда приводит к получению полезных документов, имеющих косвенное отношение к теме первичного запроса. Что означает "похожий документ", по каким критериям это определяется зачастую остается загадкой для пользователя. Один из подходов к ее решению может быть таким: каждое значимое по мнению системы слово ранжируется по какому-то критерию, из наиболее весомых слов автоматически формируется запрос, рассматриваемый как новый критерий поиска. Такой режим реализован во многих современных ИПС, например, на серверах Excite, Google и Яndex, а также в традиционных системах, использующих весовой критерий релевантности.

Ранжирование откликов

Средства повышения пертинентности в современных системах, помимо возможностей уточнения формулировки запросов, включает и весовые критерии, позволяющие ранжировать найденные документы и выдавать пользователю для просмотра наиболее весомые документы, либо вообще ограничиваться выдачей не более заданного числа наиболее весомых документов. В последнем случае, естественно, страдает полнота выдачи. Т.е. при этом полнота и релевантность являются антагонистическими характеристиками - чем выше релевантность, тем ниже полнота и наоборот. Проблеме релевантности, а особенно пертинентности уделяется большое внимание в современных системах. Так, например, служба Google реализовала алгоритмы достижения неформальной релевантности, и именно благодаря этому в свое время стала самой популярной системой в Интернет.

Ранжирование выдаваемых документов может выполняться по дате создания/обновления документа, по степени важности (многие системы оценивают важность документов по весовым критериям или по количеству ссылок на них, т.е. по цитированию). Ранжирование по дате имеет особое значение при поиске новостных сообщений средств массовой информации и информационных агентств.

Ранжирование по индексу цитируемости, аналогичное оценке значимости научных публикаций в традиционной научной среде впервые ввела Google, продемонстрировавшая эффективность такого подхода для Web-пространства.