Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Документальные информационно-поисковые системы.doc
Скачиваний:
114
Добавлен:
10.05.2014
Размер:
5.47 Mб
Скачать

14. Парадигматические и синтагматические отношения между лексическими единицами ипя. Меры близости лексических единиц.

Парадигматические отношения (или аналитические, базисные отношения) — логические отношения, существующие между лексическими единицами языка независимо от контекста их конкретного употребления. Можно сказать, что парадигматиче­ские отношения предопределяют отбор слов для какого-либо со­общения, но сами могут оставаться за его пределами.

Синтагматические отношения (или текстуальные, синтетиче­ские, синтаксические отношения) — это связи между лексиче­скими единицами языка, выражающие действительные логиче­ские связи между соответствующими понятиями в тексте сообще­ния, которые, в свою очередь, отражают конкретные ситуативные отношения между обозначаемыми ими объектами, описываемы­ми в сообщении.

15. Предкоординированные и посткоординированные информационно-поисковые языки.

ИПЯ, в которых словосочетания и фразы, выра­жающие сложные понятия заданы в словаре наряду со словами, выражающи­ми простые понятия. в таких словосочетаниях или фразах образующие их слова были связаны координатной или какой-либо иной связью до процесса индексирования. ИПЯ такого типа называются предкоординированными (pre-coordinate). К предкоординированным языкам относятся, например, как перечислительные, так и анали-тико-синтетические классификации. для обозначения основного смыслового содержания документов можно использовать только отдельные слова, словосочетания и фразы, взятые из словарного состава данного языка. т. е., по существу, проводит­ся классификация документов — их отнесение к классам, обозна­ченным лексическими единицами этого языка. Семантическая сила предкоординированного языка определяется главным обра­зом тем, насколько тщательно и исчерпывающе разработана его лексика. При составлении словаря для такого языка необходимо предвидеть изменения информационных по­требностей в будущем. предкоординированным языкам органически присуща недоста­точность словарного состава, а следовательно, и небольшая се­мантическая сила.

ИПЯ в которых лексические еди­ницы (термины, слова) объединяются в «предложения» (поиско­вые образы) лишь во время индексирования документов ил даже в процессе их поиска называются посткоординируемыми. До индексирования лексические единицы посткоординируемых языков не связаны никакими синтагматическими отношениями. Очевидно, что такие языки бу­дут семантически более сильными, чем предкоординируемые.

типология ИПЯ с точки зрения их се­мантической силы.

16. Индексирование и кодирование информации. Особенности представления информации в документальной и фактографической ис.

Системы кодирования информации Запись идентификации объекта проводит­ся с помощью условных обозначений в виде знака или группы знаков по определенным правилам. Условное обозначение объ­екта при этом называется кодом, а совокупность методов и пра­вил условного обозначения — системой кодирования.

кодирование — это процесс присвоения ус­ловных обозначений (кодов) объектам и классификационным группам в соответствии с определенной системой кодирования. Код в системе кодирования задается тройкой: с=(А, L, S), где А — алфавит (множество символов, используемых при запи­си кода), Lдлина (число позиций в коде);

S — структура кода (порядок расположения в коде символов, используемых для обозначения классификационного атрибута). Различают следующие типы алфавитов: цифровой, буквен­ный и смешанный. Структура кода представляет собой, как пра­вило, графическое изображение последовательности расположе­ния символов алфавита.

Системы ко­дирования, поддерживающие методы логического упорядочения объектов с дальнейшим при­сваиванием отдельному объекту некоторого кода, определяюще­го место объекта в принятом логическом порядке, называют регистра­ционными. I

При использовании классификационных схем для иденти­фикации группы объектов кодирование отдельного объекта со­стоит в присвоении объекту кода определенного класса классификации, системы кодирования могут быть названы классификационными.

С точки зрения длины кода: системы коди­рования кодами фиксированной длины и системы кодирования кодами переменной длины. В кодах фиксированной длины каждый разряд идентифици­рует конкретный атрибут классификационной схемы. Коды переменной длины ориентированы на идентификацию значений только тех характеристических атрибутов, которые оп­ределяют классификационную группу.

Классификационное кодирование применяется при кодировании объектов на осно­вании предварительной их классификации (правила кодиро­вания в системе кодирования определяются классификационной схемой). Различают последовательное и параллельное классификацион­ное кодирование.

Последовательное используется для иерархиче­ской классификационной структуры: сначала записывается код класса 1-го уровня, затем код класса 2-го уровня, затем код класса 3-го уровня и т. д. В ре­зультате получается кодовая комбинация, каждый разряд которой содержит информацию о значении оп­ределенного характеристического атрибута объекта. Объекты с одинаковыми кодами составляют класс иерархической класси­фикации.

Параллельное кодирование используется для фасетной систе­мы классификации: все фасеты кодируются независимо друг от друга; для значений каж­дого фасета выделяется определенное количество разрядов кода. Параллельная система кодирования обладает теми же достоинст­вами и недостатками, что и фасетная система классификации. основано на предварительной фасетной классификации.

Регистрационное кодирование используется для однозначной идентификации объектов и не требует предварительной классификации объектов. Различают порядковую и серийно-порядковую системы.

Порядковая предполагает последова­тельную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определяться после предва­рительного упорядочения объектов, например по алфавиту. Ка­ждый из объектов классифицируемого множества кодируется путем присвоения ему текущего порядкового номера.

Серийно-порядковая предусматривает предварительное выделение групп объектов, которые составля­ют серию, а затем в каждой серии производится порядковая ну­мерация объектов. Каждая серия при этом также будет иметь порядковую нумерацию. удобна, когда количество групп невелико. кодами служат числа натурального ряда с закреплением отдельных серий этих чисел за объектами классифика­ции с одинаковыми признаками.

Координатное индексирование базируется на положении, что смысловое содержание документа и информационной потребности может быть с достаточной степенью точности и полноты выражено соответствующим списком так называемых ключевых слов, которые явно или в скрытом виде содержатся в тексте. Под ключевыми словами понимаются наиболее существенные для этой цели слова и словосочетания, обладающие назывной функцией. Кроме назывных в качестве ключевых слов могут выступать также соответствующие численные характеристики, хронологические данные, диапазоны температур, давлений и т. д. координатное индексирование — это способ выражения основного смыслового содержания документа или информационной потребности в виде определенной совокупности ключевых слов.

При «чистом» координатном индексировании ключевые слова в поисковых образах никак не связаны одно с другим и функционируют самостоятельно. Для отыскания документов необходимо выполнить определенные логические операции над классами, которые обозначены ключевыми словами поисковых образов документов. В простейшем случае, когда поисковое предписание сформулировано в виде логического произведения (конъюнкции) некоторого множества ключевых слов, документ считается отвечающим на информационный запрос и подлежит выдаче, если в поисковом образе этого документа одновременно содержатся все ключевые слова поискового предписания.