- •Оглавление
- •Введение
- •Распределение часов курса по темам и видам работы
- • Литература
- •Конспект лекций
- •Вопрос 3. Классификация ис. Фактографические и документальные ис. Все многообразие ис классифицируется по присущим им признакам:
- •Лекция 3 Информационно-поисковые языки
- •Вопрос 2. Упорядочение лексических единиц ипя. Для упорядочения лексических единиц ипя служат парадигматические отношения, которые фактически определяют и задают структуру языка.
- •Вопрос 3. Требования к ипя. При разработке конкретного ипя учитываются:
- •Классификация информационно-поисковых языков
- •Вопрос 3. Методика построения и грамматика ипя дескрипторного типа. Разработка ипт осуществляется на основе следующих этапов:
- •Распределенные информационные системы
- •Вопрос 2. Система World Wide Web.
- •Экспертные системы
- •Вопрос 3. Виды эс. Экспертные системы создаются для решения разного рода проблем, но основные типы их деятельности можно сгруппировать в следующие категории:
- •Тематический поиск информации в сети интернет
- •Разработка структуры и создание базы данных "кадры"
- •Тестовые задания по курсу
- • Вопросы к зачету
Лекция 3 Информационно-поисковые языки
Учебная презентация
Вопросы:
Информационно-поисковые языки (ИПЯ): понятие и структура.
Упорядочения лексических единиц ИПЯ.
Требования к ИПЯ
Вопрос 1. Информационно-поисковые языки: структура и требования. Наряду с многочисленными естественными языками в человеческом обществе получили большое распространение и различные искусственные языки. Они создаются людьми для решения каких-либо задач в области науки и техники (машинные языки), для общения между людьми (эсперанто, профессиональные диалекты). Среди искусственных языков особое значение занимают информационные языки.
Необходимость создания и использования информационных языков для обработки информации возникла и продолжает углубляться по мере совершенствования информационной технологии в обществе. Машинный язык — это искусственный, формальный язык, предназначенный для записи информации, хранящейся в запоминающем устройстве вычислительных машин, для описания программ (алгоритмов), указывающих очередность и последовательность выполнения команд по вводу данных из запоминающего устройства, переработке и преобразованию поступающей в машину информации.
Для поиска информации разрабатываются и широко применяются такие искусственные языки, как информационно-поисковые. Информационно-поисковый язык (ИПЯ) — искусственная знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации.
Структура ИПЯ однотипна с формальной структурой информации и предполагает выделение следующих уровней:
фонетического;
лексического;
синтаксического;
текстового.
Элементы каждого уровня объединяются в синтагмы и парадигмы.
Фонетический уровень — это алфавит (списка элементарных символов). В ИПЯ для этого применяют символы естественного языка: кириллица, латинский алфавит, арабские и римские цифры, знаки пунктуации.
Лексический уровень или словарный запас — совокупность всех употребляемых в ИПЯ лексических единиц. Лексическая единица — наименьшая осмысленная последовательность знаков, задаваемая при конструировании отдельных слов языка. Лексические единицы и образуют лексику языка.
Вопрос 2. Упорядочение лексических единиц ипя. Для упорядочения лексических единиц ипя служат парадигматические отношения, которые фактически определяют и задают структуру языка.
Парадигматические отношения (аналитические) — это внетекстовые, объективно существующие смысловые отношения между лексическими единицами, которые устанавливаются и фиксируются в словаре языка, исходя из потребностей информационного поиска. Парадигматические отношения учитывают сходство или различие в объеме и содержании лексических единиц (понятий). Отношения делятся на: сильные (логические) и слабые (ассоциативные).
Объем понятия — множество предметов, отображенных в данном понятии. Например, "периодические издания" включает газеты, журналы. Количество предметов, входящих в объем, может быть конечным (части света), бесконечным (число), существуют единичные понятия (Луна).
Содержание понятия — это отраженная в сознании совокупность свойств, присущих каждому предмету, входящему в объем понятия.
К сильным (логическим) парадигматическим отношениям относятся:
Эквивалентности (равнозначности) — отношения между понятиями, объемы которых совпадают, но в содержании имеются различия. Например, документ печатный — документ опубликованный; документ рукописный — документ неопубликованный.
Подчинения — отношения между понятиями, когда объем одного или нескольких понятий входит в объем другого. Например, вторичные документы (род) включают аннотации, рефераты (виды).
Соподчинения — между видовыми понятиями, в равной степени подчиненными одному родовому. Например, книга, брошюра, листовка — виды непериодических изданий.
Перекрещивания — между понятиями, содержание которых различно, но объемы частично совпадают. Например, студенты и туристы, писатели и ученые.
Противоположности — между соподчиненными понятиями, которые в своем содержании имеют несовместимые признаки, обуславливающие несовпадение объемов. Например, документы текстовые и документы машиночитаемые.
Противоречия (контрадикторности) — между двумя соподчиненными понятиями, видовые признаки которых несовместимы, что обуславливает несовпадение объемов этих понятий. Эти понятия исключают друг друга. Например, документы первичные и документы вторичные.
Слабые (ассоциативные) парадигматические отношения выражают связи не между понятиями, а между самими предметами (технологические, причинно-следственные, системно-элементные). При создании ИПЯ целесообразно фиксировать следующие ассоциативные отношения:
Целое — часть (Справочно-поисковый аппарат и каталоги, картотеки).
Система — элемент (Архивная отрасль Беларуси и Национальный исторический архив).
Отношения детерминации: причина — следствие (Старение публикаций и снижение спроса).
Процесс — оборудование (Ксерокопирование и ксерокс).
Процесс — материал (Ксерокопирование и бумага).
Материал — изделие (Древесина и бумага).
Изделие — процесс изготовления (Документ и документирование).
Предмет — назначение (Магнитные диски и запись информации).
Наука — объекты изучения (Информатика и информация).
Наука — представители (Философия и Сократ).
Парадигматические отношения позволяют объединять лексические единицы ИПЯ в семантические группы — парадигмы, элементы которых обладают свойством взаимозаменяемости.
Кроме парадигматических отношений существуют синтагматические (синтаксические, грамматические, текстуальные) отношения, служащие для установления семантических связей между лексическими единицами. Речь идет о правилах образования и правилах интерпретации ИПЯ. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации — как надлежит понимать эти слова и выражения.
Средства выражения синтагматических отношений называют грамматикой ИПЯ. ИПЯ должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов.
Одной из основных характеристик ИПЯ является семантическая сила — возможность передавать полно и точно содержание сообщений.