Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Вербальные языки - студентам.docx
Скачиваний:
19
Добавлен:
05.12.2018
Размер:
106.27 Кб
Скачать
  1. Вербальные языки

    1. Общее описание вербальных языков

Вербальные языки предназначены для координатного индексирования документов и информационных запросов, поэтому их часто называют языками координатного индексирования.

Координатное индексирование – метод формирования индекса документа на основе анализа его содержания с помощью дескрипторов и ключевых слов и логических операций над ними.

Ключевые слова – слова, содержащиеся в тексте документа и передающие основную идею его содержания.

Дескриптор – лексическая единица, выраженная вербально (словом) или кодом и являющаяся именем класса синонимических или близких по смыслу ключевых слов.

Вербальные языки являлись основным языковым средством первых автоматизированных информационных систем, появившихся в 1960-х гг., а их развитие определило вектор эволюции информационных систем в последующие годы.

К языкам вербального типа относятся:

  • дескрипторные языки;

  • языки свободных ключевых слов.

Вербальные языки отличаются от классификационных языков по базовой функции ‑ способу отражения содержания документа. Если в классификационных языках используется априорное (предкоординатное) связывание поисковых признаков, то в вербальных языках признаки связываются при ознакомлении с содержанием документа, то есть используется посткоординация. Иногда вербальные языки также называют посткоординатными, таким образом подчеркивая их отличие от классификационных языков по базовой функции ‑ способу отражения информации текста.

    1. Классификации вербальных языков

Классификации вербальных языков осуществляется по трём признакам:

  • по способу контроля их лексики;

  • по степени контроля их лексики;

  • по принципу формирования лексики.

Под понятием «контроль лексики» скрываются множество различных процедур. Контроль может осуществляться как на этапе создания словаря системы, так и на этапе индексирования. Иногда эти процессы совмещают.

Контроль лексики осуществляется разными способами:

  • семантическим,

  • лексикографическим,

  • словарным,

  • статистическим,

  • усечением.

Семантический контроль подразумевает проведение семантической нормализации лексики, которая в общем случае предусматривает следующие процедуры:

  • устранение синонимии, полисемии и омонимии,

  • уточнение семантики термина при помощи парадигматических отношений;

  • тематическую привязку термина («окрашивание»).

Поскольку естественные языки позволяют выразить один и тот же смысл с помощью разных слов, идентичным по смыслу словам должен соответствовать один общий дескриптор. Для осуществления синонимической замены идентичных по смыслу слов были введены специальные словари, получившие название тезаурусов.

Полисемия – многозначность, наличие у одного и того же слова нескольких взаимосвязанных.

Омонимы – разные по значению, но одинаковые по произношению или написанию слова. Между значениями омонимичных слов отсутствует связь.

Лексикографический контроль заключается в нормализации лексики лексикографическими методами, к основным из которых относятся:

  • установление фиксированного порядка слов в словосочетаниях прямого (прилагательное, существительное) или обратного;

  • приведение лексики к каноническому виду (имен к именительному падежу и каноническому числу: единственному или множественному), приведение прилагательных или причастий к каноническому роду (если используется единственное число), приведение глагольных форм к инфинитиву (неопределенная форма);

  • единообразное написание вариантных форм (дефисных, прописных букв и др.), исправление орфографических ошибок;

  • замена глагольных форм именными, замена акронимов и аббревиатур полными или стандартными формами и др.;

Словарный контроль подразумевает включение используемой лексики в фиксированные словари. При этом может производиться разделение лексики на разные типы, в том числе:

  • на контролируемую и свободную,

  • на допустимую и запрещенную,

  • термины и идентификаторы (имена нарицательные и собственные) и др.

Наиболее распространен способ контроля лексики с разделением ее на допустимую и запрещенную, который заключается в удалении лексики, включенной в словарь запрещенных слов (стоп-словарь). Вся остальная лексика при этом включается в поисковый образ документа.

Статистическая нормализация, состоящая в представлении группы слов при помощи нескольких букв, выбранных по статистическим критериям. Несмотря на приближенный характер решений, которые получаются при использовании такого подхода, в настоящее время используются методы индексирования и поиска, построенные на этом принципе.

Усечение представляет собой отделение фрагмента лексики либо по числу символов, либо по списку отсекаемых фрагментов. Усечение как способ нормализации лексики чаще применяется при обработке запросов при помощи специальных операторов. Среди видов усечения выделяют: правое, левое, маскирование и сканирование (скользящую маску). Усечение является очень удобным способом поиска по лексике, имеющей стандартную словообразовательную структуру, например, химическим наименованиям. В этих случаях усечение иногда осуществляют и в лексике поисковых образов документов. В отдельных АИС усечение применяется как упрощенный вариант словоизменительной нормализации.

Вербальные ИПЯ по степени контроля делятся на контролируемые и свободные.