Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2 курс_ИС_УМК_Попова.doc
Скачиваний:
8
Добавлен:
24.08.2019
Размер:
310.27 Кб
Скачать

Лекция 3 Информационно-поисковые языки

Учебная презентация

Вопросы:

  1. Информационно-поисковые языки (ИПЯ): понятие и структура.

  2. Упорядочения лексических единиц ИПЯ.

  3. Требования к ИПЯ

Вопрос 1. Информационно-поисковые языки: структура и требования. Наряду с многочисленными естественными языками в человеческом обществе получили большое распространение и различные искусственные языки. Они создаются людьми для решения каких-либо задач в области науки и техники (машинные языки), для общения между людьми (эсперанто, профессиональные диалекты). Среди искусственных языков особое значение занимают информационные языки.

Необходимость создания и использования информационных языков для обработки информации возникла и продолжает углубляться по мере совершенствования информационной технологии в обществе. Машинный язык — это искусственный, формальный язык, предназначенный для записи информации, хранящейся в запоминающем устройстве вычислительных машин, для описания программ (алгоритмов), указывающих очередность и последовательность выполнения команд по вводу данных из запоминающего устройства, переработке и преобразованию поступающей в машину информации.

Для поиска информации разрабатываются и широко применяются такие искусственные языки, как информационно-поисковые. Информационно-поисковый язык (ИПЯ) — искусственная знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации.

Структура ИПЯ однотипна с формальной структурой информации и предполагает выделение следующих уровней:

  • фонетического;

  • лексического;

  • синтаксического;

  • текстового.

Элементы каждого уровня объединяются в синтагмы и парадигмы.

Фонетический уровень — это алфавит (списка элементарных символов). В ИПЯ для этого применяют символы естественного языка: кириллица, латинский алфавит, арабские и римские цифры, знаки пунктуации.

Лексический уровень или словарный запас — совокупность всех употребляемых в ИПЯ лексических единиц. Лексическая единица — наименьшая осмысленная последовательность знаков, задаваемая при конструировании отдельных слов языка. Лексические единицы и образуют лексику языка.

Вопрос 2. Упорядочение лексических единиц ипя. Для упорядочения лексических единиц ипя служат парадигматические отношения, которые фактически определяют и задают структуру языка.

Парадигматические отношения (аналитические) — это внетекстовые, объективно существующие смысловые отношения между лексическими единицами, которые устанавливаются и фиксируются в словаре языка, исходя из потребностей информационного поиска. Парадигматические отношения учитывают сходство или различие в объеме и содержании лексических единиц (понятий). Отношения делятся на: сильные (логические) и слабые (ассоциативные).

Объем понятия — множество предметов, отображенных в данном понятии. Например, "периодические издания" включает газеты, журналы. Количество предметов, входящих в объем, может быть конечным (части света), бесконечным (число), существуют единичные понятия (Луна).

Содержание понятия — это отраженная в сознании совокупность свойств, присущих каждому предмету, входящему в объем понятия.

К сильным (логическим) парадигматическим отношениям относятся:

  • Эквивалентности (равнозначности) — отношения между понятиями, объемы которых совпадают, но в содержании имеются различия. Например, документ печатный — документ опубликованный; документ рукописный — документ неопубликованный.

  • Подчинения — отношения между понятиями, когда объем одного или нескольких понятий входит в объем другого. Например, вторичные документы (род) включают аннотации, рефераты (виды).

  • Соподчинения — между видовыми понятиями, в равной степени подчиненными одному родовому. Например, книга, брошюра, листовка — виды непериодических изданий.

  • Перекрещивания — между понятиями, содержание которых различно, но объемы частично совпадают. Например, студенты и туристы, писатели и ученые.

  • Противоположности — между соподчиненными понятиями, которые в своем содержании имеют несовместимые признаки, обуславливающие несовпадение объемов. Например, документы текстовые и документы машиночитаемые.

  • Противоречия (контрадикторности) — между двумя соподчиненными понятиями, видовые признаки которых несовместимы, что обуславливает несовпадение объемов этих понятий. Эти понятия исключают друг друга. Например, документы первичные и документы вторичные.

Слабые (ассоциативные) парадигматические отношения выражают связи не между понятиями, а между самими предметами (технологические, причинно-следственные, системно-элементные). При создании ИПЯ целесообразно фиксировать следующие ассоциативные отношения:

  • Целое — часть (Справочно-поисковый аппарат и каталоги, картотеки).

  • Система — элемент (Архивная отрасль Беларуси и Национальный исторический архив).

  • Отношения детерминации: причина — следствие (Старение публикаций и снижение спроса).

  • Процесс — оборудование (Ксерокопирование и ксерокс).

  • Процесс — материал (Ксерокопирование и бумага).

  • Материал — изделие (Древесина и бумага).

  • Изделие — процесс изготовления (Документ и документирование).

  • Предмет — назначение (Магнитные диски и запись информации).

  • Наука — объекты изучения (Информатика и информация).

  • Наука — представители (Философия и Сократ).

Парадигматические отношения позволяют объединять лексические единицы ИПЯ в семантические группы — парадигмы, элементы которых обладают свойством взаимозаменяемости.

Кроме парадигматических отношений существуют синтагматические (синтаксические, грамматические, текстуальные) отношения, служащие для установления семантических связей между лексическими единицами. Речь идет о правилах образования и правилах интерпретации ИПЯ. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации — как надлежит понимать эти слова и выражения.

Средства выражения синтагматических отношений называют грамматикой ИПЯ. ИПЯ должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов.

Одной из основных характеристик ИПЯ является семантическая сила — возможность передавать полно и точно содержание сообщений.