Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ответы тои..doc
Скачиваний:
3
Добавлен:
26.04.2019
Размер:
678.91 Кб
Скачать

1. Распределенные базы данных

Под распределенной (Distributed DataBase - DDB) обычно подразумевают базу данных, включающую фрагменты из нескольких баз данных, которые располагаются на различных узлах сети компьютеров, и, возможно управляются различными СУБД. Распределенная база данных выглядит с точки зрения пользователей и прикладных программ как обычная локальная база данных. В этом смысле слово "распределенная" отражает способ организации базы данных, но не внешнюю ее характеристику. ("распределенность" базы данных невидима извне).

1.1. Определение Дэйта.

Лучшее, на мой взгляд, определение распределенных баз данных (DDB) предложил Дэйт (C.J. Date) в [1]. Он установил 12 свойств или качеств идеальной DDB:

  • Локальная автономия (local autonomy)

  • Независимость узлов (no reliance on central site)

  • Непрерывные операции (continuous operation)

  • Прозрачность расположения (location independence)

  • Прозрачная фрагментация (fragmentation independence)

  • Прозрачное тиражирование (replication independence)

  • Обработка распределенных запросов (distributed query processing)

  • Обработка распределенных транзакций (distributed transaction processing)

  • Независимость от оборудования (hardware independence)

  • Независимость от операционных систем (operationg system independence)

  • Прозрачность сети (network independence)

  • Независимость от баз данных (database independence)

49) Информационно-поисковые каталоги и тезаурусы

Использование информационно-поисковых тезаурусов

Тезаурусы используют в своей работе специалисты,в той или иной степени связанные с подготовкой и обработкой текстовой информации:переводчики,редакторы,научные работники,референты и др.

Информационно-поисковые тезаурусы используются при индексировании документов и запросов.

Различают безтезаурусное индексирование и индексирование с тезаурусным контролем лексики.

При безтезаурусном индексировании поисковый образ документа представляется в виде списка ключевых слов,выбранных непосредственно из текста документа.Такое индексирование требует меньше времени и менее трудоемко.Однако такой режим индексирования обладает рядом недостатков:возможна синонимия;нельзя отразить парадигматические отношения.

При индексировании с тезаурусным контролем лексики для выражения содержания документа и запроса используют только дескрипторы,входящие в информационно-поисковый тезаурус, что позволяет исключить синонимию и учесть парадигматические связи, и, в конечном счете, повышает эффективность поиска.

Таким образом,информационно-поисковые тезаурусы используются для:

- перевода текста с ЕЯ на дескрипторный ИПЯ путем замены ключевых слов соответствующими дескрипторами,при этом исключается многозначность;

- отображения парадигматических связей между дескрипторами.

В настоящее время происходит расширение сфер применения автоматических тезаурусов.При этом тезаурусы выступают составной частью современных систем подготовки текстов, осуществляя лингвистическую поддержку процесса подготовки и обработки текстов на естественном языке.

Среди наиболее перспективных направлений развития автоматических тезаурусов можно указать следующие:

1. Получение справки по используемому слову. Указав слово, в качестве ключа для запроса,пользователь в ответ получает соответствующий фрагмент словаря,содержащий лингвистическую информацию о данном слове.Например,автоматический тезаурус получает от пользователя некоторое существительное и в ответ выдает совокупность устойчиво сочетающихся с ним глаголов или все наиболее часто сопровождающие его определения.При этом автоматически выполняется процедура нормализации входного слова(т.е. приведение существительного к именительному падежу).

2. Контекстные замены по требованию пользователей.В данном случае тезаурус не только подбирает вместо одного словосочетания другое, которое пользователь счел более соответствующим контексту по смысловым или стилистическим соображениям,но и автоматически переоформляет параметры слов(например, род прилагательного)в соответствии с контекстом.Это означает,что синтаксические операции,производимые тезаурусом,существенно усложняются.

3. Автоматическая оценка стиля.Если слова и словосочетания в тезаурусе снабдить стилистическими пометками, то он может использоваться для стилистической оценки текста с выделением слов и словосочетаний,выпадающих,из общего стиля документа.

Поисковые системы подразделяются на каталоги и указатели; они различаются технологией подготовки справочного материала: каталоги составляют люди, а указатели формируются автоматически. Самый крупный каталог Интернет – Yahoo! (www. yahoo.com); он содержит более миллион ресурсов и поддерживается 150 редакторами. Ведущий каталог России – List.Ru (www. list.ru): 100 тысяч ссылок, классифицированных по 18 каталогам.

Язык поисковых слов служит для координатного индексирования документов и запросов посредством дескрипторов и ключевых слов. В его основе лежит алфавитный перечень лексических единиц, или словарь ключевых слов. Именно язык ключевых слов открыл возможность для автоматизации информационного поиска. Он позволяет достаточно детально и многоаспектно раскрывать содержание документов. Дескрипторы и ключевые слова легко дополняются и обновляются, поскольку в алфавитный перечень можно включать любую лексическую единицу, необходимую для индексирования.

Информационно-поисковые каталоги является традиционными технологиями организации информационного поиска в документальных фондах библиотек, архивов и представляют собой классификационную систему знаний по определенной предметной области. Смысловое содержание документа в информационно-поисковых каталогах отображается тем или иным классом каталога, а индексирование документов заключается в присвоении каждому документу специально кода (индекса), соответствующего по содержанию классу (классам) каталога, и создании на этой основе специального индексного указателя.

Система метаданных является центральным логическим компонентом любой электронной библиотеки (ЭБ). Подобно тому, как библиотечный каталог организует все множество единиц хранения в систему библиотечных фондов, вокруг которой строятся все библиотечные технологии, система метаданных организует совокупность электронных информационных ресурсов (или цифровых объектов) библиотеки.

На основе системы метаданных строятся основные технологические процессы ЭБ:

· навигация в информационном пространстве;

· поиск отдельных цифровых объектов (информационных ресурсов) или их совокупностей;

· ввод, обработка и организация хранения цифровых объектов, а также их исключение (изъятие);

· управление правами доступа к цифровым объектам, включая защиту авторских прав, организации платы за доступ и т.п.

Типы метаданных:

Описательные – библиографическая информация или другие сведения о содержании (семантике) цифровых объектов.

Структурные – сведения о форматах, структуре, объеме и других формальных свойствах цифровых объектов;

Административные – права, разрешения на доступ, на коррекцию данных, данные о пользователе, данные для систем оплаты, технологические данные.

Общим типом метаданных является идентификатор, задача которого – однозначное представление цифрового объекта для внешнего лица и различных приложений.

  • 50) Релевантность и пертинентность

  • Слово «релевантность» обозначает соответствие, релевантен – значит соответствует чему-либо.

В поисковой оптимизации (SEO) понятие «релевантность» используется поисковыми системами, чтобы построить поисковую выдачу для удовлетворения интересов пользователя. Если в поисковую систему Яндекс или Google ввести какой-либо запрос, то мы получим отсортированные в порядке убывания релевантности документы (страницы сайтов).

Поисковые системы рассчитывают релевантность на основе определенных алгоритмов (формул). В каждой поисковой системе используется свой алгоритм, который известен лишь специалистам данной системы.

Оптимизаторам и владельцам сайтов даны лишь общие рекомендации по написанию статей, которые могут занять верхние позиции в выдаче.

Например известно, что при расчете релевантности учитываются внутренние и внешние факторы.

Внутренние факторы – обозначают то, на сколько хорошо текст страницы (документа) подходит для раскрытия тех или иных поисковых запросов. То есть, если у вас на сайте есть текст, скажем, про то, «как выращивать комнатные цветы» – он хорошо оптимизирован под данный запрос, то после индексации данного текста поисковой системой она поймет, что он именно про выращивание комнантных цветов.

Помимо текста есть и другие внутренние факторы: внутренняя перелинковка (внутренние ссылки), поведение людей на странице с текстом.

Внешние факторы – это внешние ссылки и упоминания. Поисковые системы считают, что если вы написали действительно классный текст о выращивании комнатных цветов, то люди, прочтя его, будут рассказывать о нем своим друзьям в социальных сетях, ссылаться в блогах и на сайтах.

Таким образом, поисковые системы на основе текста, поведенческих факторов и ссылок рассчитывают релевантность текста тем или иным ключевым запросам и далее ранжируют (сортируют) тексты по убыванию релевантности.

Пертинентность – мера удовлетворенности пользователя результатами поисковой выдачи. То есть данное понятие обозначает, насколько результаты поиска соответствуют ожиданиям пользователя.

Нынешние алгоритмы поисковых систем стараются повышать именно пертинентность. Для этого вводятся такие понятия, как «поведение человека на сайте», «свежесть информации» (мало кто хочет получить на свой запрос информацию начала 2000-х годов) и другие. То есть поисковые системы все больше начинают изучать поведение и интересы людей для того, чтобы построить максимально релевантную выдачу

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]