- •Министерство образования и науки Российской Федерации
- •Оглавление
- •2. Поиск данных и документов для подготовки и принятия
- •3. Модели и алгоритмы поиска документов
- •4. Модель запросов лпр в среде распределенных
- •5. Система поддержки принятия решений на основе
- •6. Система информационно-лингвистического обеспечения
- •Введение
- •1. Распределенные системы поддержки
- •Принятия решений
- •1.1. Понятие систем поддержки принятия решений
- •1.2. Типовые архитектуры систем поддержки
- •Принятия решений
- •1.3. Анализ возможностей современных систем
- •Поддержки принятия решений
- •1.3.1. Система поддержки принятия решений парус
- •1.3.2. Система поддержки принятия решений
- •На платформе Oracle
- •2. Поиск данных и документов
- •2.1.2. Метапоисковые системы
- •2.2. Поиск информации о производственных
- •Ситуациях в информационно-управляющих
- •Системах
- •2.3. Поиск документов на основе построения
- •Терминологического базиса
- •2.4. Контекстно-поисковые процедуры на основе
- •Реляционных баз данных
- •3. Модели и алгоритмы поиска
- •3.2. Алгоритмы и модели информационного поиска
- •3.2.1. Алгоритм PageRing
- •3.2.2. Алгоритм Клейнберга и его модификации
- •3.2.3. Латентно-семантический анализ
- •3.2.4. Алгоритмы морфологического анализа текстов
- •3.2.5. Модели ранжирования
- •3.2.6. Модель определения релевантности
- •3.3. Оценка качества поисковых алгоритмов
- •4. Модель запросов лпр в среде
- •Распределенных информационных ресурсов информационно-управляющих систем
- •4.1. Процедуры формирования модели запросов лпр
- •4.2. Характеристики модели запросов лпр
- •4.3. Методология plsa в области
- •Извлечения информации
- •4.3.1. Частотная терминологическая модель запросов лпр
- •4.3.2. Динамический профиль лпр в информационно-управляющих системах
- •4.3.3. Алгоритм непрерывной корректировки профиля лпр
- •4.4. Мультилингвистическая поисковая система
- •Для подготовки и принятия решения в корпоративных
- •Информационно-управляющих системах
- •4.5. Алгоритмы организации работы
- •При обработке информации в системе
- •Поддержки принятия решений
- •4.6. Программная реализация предложенных
- •Алгоритмов
- •5. Система поддержки
- •Принятия решениЙ на основе Информационно-терминологического
- •5.1. Лексико-семантическая база данных
- •Типа WordNet для русского языка
- •5.2. Тезаурус sdk
- •5.3. Тезаурус rco for Oracle
- •5.4. Синтез структуры распределенной системы
- •Поддержки принятия решений на основе тезауруса
- •И его мультилингвистическая модификация
- •6. Система информационно-лингвистического
- •Обеспечения распределенных систем
- •Поддержки принятия решений
- •6.1. Алгоритм работы поисковой подсистемы
- •6.2. Функциональные возможности подсистемы
- •Синтеза структуры распределенной системы
- •Поддержки принятия решений
- •6.3. Программная реализация системы
- •Информационно-лингвистического обеспечения распределенных систем поддержки принятия решений
- •Заключение
- •Библиографические ссылки
- •Мультилингвистические технологии подготовки и принятия решений в распределенных информационно-управляющих системах
- •660014, Г. Красноярск, просп. Им. Газ. «Красноярский рабочий», 31.
2.1.2. Метапоисковые системы
В связи с глобальными и стремительными темпами роста сети Интернет все возрастающее место в поиске информации занимают метапоисковые технологии. Они начинают приобретать все больший успех у пользователей за счет охвата большего сегмента Интернета, чем у традиционных поисковых систем. В 1999 г. журналы Science magazine и ForresterResearchпровели исследование охвата Сети ведущими на тот период времени поисковыми системами, а также сравнение областей охвата с 1998 г. Результаты этого исследования показали, что темпы роста количества информации значительно опережают темпы индексации документов поисковыми системами. Для разрешения проблемы поиска информации в Интернете можно использовать либо несколько поисковых систем, либо метапоисковые системы.
Метапоисковая система может быть реализована как в самом Интернете, например на Telnet- или веб-доступном узле, так и в виде локальной клиентской программы (URL: www.listsoft.ru, раздел «Программы-Поиск»).Не обладая собственной индексной базой данных, метапоисковая система выступает в качестве шлюза, который передает через свой интерфейс запросы на поисковые системы и возвращает результаты поиска.
Одно из назначений метапоискового сервиса при поиске состоит в тестировании Сети относительно информации, релевантной запросу [25; 26]. Метапоисковые системы позволяют также оценить результативность применения отдельных поисковых систем для решения конкретной поисковой задачи. К сожалению, для предметного поиска метасистемы пока еще плохо применимы. Проблема заключается в том, что язык запросов метапоисковой системы располагает лишь самыми общими для большинства поисковых систем и поэтому крайне скромными возможностями. Появление проекта стандарта поисковых систем SESP открывает новые перспективыв развитии метапоисковых систем, существенно расширяя их возможности.
Метапоисковые системы могут быть разработаны как самостоятельно или приобретены.
При самостоятельной разработке практически каждая крупная поисковая система предоставляет интерфейс для организации поисковой процедуры.
Среди недорогих готовых продуктов можно выделить программу Inforia Quest (URL:http:/inforia.com/quest) (рис. 2.3), признанную одной из лучших в своем классе и претендующую на роль профессионального поискового инструмента [28; 49; 69].
Рис. 2.3. Локальный метапоисковый клиент Inforia Quest
Рассмотрим некоторые возможности этой программы, которые позволяют показать тенденции развития метапоисковых систем последнего поколения.
Прежде всего InforiaQuestинтегрирует в себе не только поисковые сервисы веб-пространства, но и другие поля информационного сектора Сети – файловые архивы FTP и систему телеконференций.
При обработке поискового запроса допускается соединение более чем со 100 поисковыми системами, включая специализированные.
Отчетная информация о найденных ресурсах отображается в рабочей области программы. Ссылки, дублирующие уже найденные, исключаются (правда, без работы по изменению коэффициентов релевантности ссылок). Полученные адреса немедленно проверяются на доступность. Есть возможность выбрать необходимые поисковые системы из полного списка, установить время проведения поиска и ограничение на число ссылок, полученных от каждого поискового сервера. Сам перечень поисковых систем, с которыми взаимодействует программа, обновляется автоматически с сервера разработчика при работе в Интернете.
Одним из достоинств программы InforiaQuestявляется то, что она поддерживает некоторое подобие поискового языка: работают два логических оператора и поиск по фразам. Однако всякий раз, когда язык метасистемы не в состоянии обеспечить точное построение поискового запроса,приходится прибегать к автономным сервисам Интернета, в первую очередь к поисковымсистемам.
Таким образом, можно сделать вывод, что возможности метапоисковых систем в будущем превзойдут возможности традиционных поисковых систем.
До недавнего времени каждая отдельная традиционная поисковая система индексировала несравненно меньший объем данных, чем тот, который учитывался при осуществлении метапоиска. Сейчас, с появлением поисковиков с глубокой индексацией Интернета (Google, AllTheWeb и др.),ситуация постепенно меняется, хотя метапоисковые системы позволяют существенно расширить зону поиска, так как они опрашивают множество баз данных.
Каждая метапоисковая система при осуществлении поиска использует базы данных традиционных поисковых систем [48; 77; 84]. В частности, четыре ведущих метапоисковых системы: MetaCrawler, Dogpile, Ixquickи Mamma – опрашивают следующие ресурсы:
– система MetaCrawler использует Alta Vista и LookSmart, а также другие базы данных (URL:www.metacrawler.com). Она сортирует и выводит результаты в соответствии с их релевантностью и исключает повторы;
– система Dogpile работает с Alta Vista, LookSmart, Yahoo! и другими базами данных. Повторы не исключаются, а результаты выводятся сгруппированными по поисковым системам;
– Ixquick – это новая, мощная и быстрая метапоисковая система. Она использует различный набор исходных баз данных для каждого запроса в зависимости от того, как те или иные поисковые системы ранжировали сайты, содержащие запрашиваемый термин.
Ixquick применяет star system (систему звездочек, или рейтинговую систему), чтобы определить наиболее релевантные результаты. Эта система работает следующим образом: за каждую поисковую систему, поместившую сайт при поиске по определенному ключевому слову в первую десятку результатов, этот сайт получает (в рамках данного запроса) одну звездочку. Таким образом, релевантность каждого конкретного сайта определяется на основе опроса множества поисковых систем, использующих различные алгоритмы поиска, и только если сайт показал высокие результаты в каждой из них;
– система Mamma считается «мамой всех поисковых систем». Она проводит поиск в LookSmart, Lycos и MSNSearch. Mamma также выводит различные типы файлов в результатах поиска, включая MP3, графические и видеофайлы. Она использует все эти источники, сортируя результаты в зависимости от их релевантности, которая определяется прежде всего различным весом разных поисковых систем (например, результаты Yahoo! имеют большее значение, чем Lycos), а затем – путем оценки и ранжирования результатов, полученных из всех источников.
Существует и множество других служб и инструментов метапоиска, среди которых можно выделить Copernic,C4,Debriefing,Highway61,ProFusion,Search.com,SearchWho,SurfWax,Verio,Vivisimo.
Качество результатов поиска метапоисковыми системами напрямую зависит от качества поиска традиционных систем. Но возможности метапоисковиков постоянно расширяются, благодаря чему число их пользователей будет расти [24; 26; 56].