- •I часть. «Прикладная и компьютерная лингвистика»
- •Язык и теория знаков. Семиотика (предмет, объект, методы, задачи).
- •Структурная и Математическая лингвистика. Моделирование в лингвистике. Понятие лингвистической модели. Основные требования к модели. Понятие формализации.
- •Аналитический вид
- •Синтетический вид
- •Языки и модели представления знаний и семантики (семантические сети, фреймы, логика предикатов, продукции, сценарии и др.).
- •Лингвистические модели (исследовательские, модели анализа и синтеза, порождающие). Задачи Теории формальных языков. Иерархия Хомского.
- •Иерархия Хомского:
- •Компьютерные программы поддержки лексикографических работ
- •Новые разработки в лексикографии
- •Основные понятия
- •Типы корпусов
- •Основные требования к корпусам и основная задача
- •Опыт разработки корпусов текстов
- •Технологии анализа и синтеза естественного языка. Области использования. Уровневый анализ ея, начиная с технологий ocr/icr и т.Д.
- •Морфологический анализ. Виды ма. Лингвистическое обеспечение морфоанализаторов (словарь Зализняка и др.). Лексико-грамматический анализ и разметка (pos-tagging). Области применения.
- •Синтаксический анализ, задачи вывода и разбора (формальные грамматики, модели составляющих и зависимостей, нисходящий и восходящий парсинг).
- •Формальные системы, используемые в автоматизированных и синтаксических анализах.
- •3 Основных способа представления синтаксической структуры предложения.
- •Дерево вывода.
- •Стилистика. Прикладной характер стилистических исследований. Стилистические средства языка. Функциональные стили речи. Основные особенности.
- •II) Некоторые понятия звуковых технологий
- •Синтез речи – задачи и принцип работы систем. Методы синтеза речи, способы моделирования человеческой речи, типы синтезаторов речи. Системы синтеза текст-речь.
- •II)Классификация программ call.
- •III)Дистанционное обучение ( Distant Learning)
- •3 Основных компонента в www:
- •2.2 Гипертекстовая технология
- •Как указывать ключевые слова?
- •Социолингвистика
- •Информационный язык
- •Прямой поиск
- •Инвертированный файл
- •Область технической коммуникации как новое направление прикладной лингвистики. Компетенции разработчика технической документации. Стандартизация документов.
- •Прикладная и теоретическая лингвистика – проблемы взаимовлияния.
Информационный язык
Информационно-поисковый язык – это специализированный искусственный язык, предназначенный для индексирования (описания) формальных характеристик документов в виде поискового образа, а также для описания информационных запросов (поисковых предписаний) к информационно-поисковым системам.
Информационно-поисковый язык, как и любой язык, состоит из алфавита, словаря (термины или специальные символьные коды), грамматики и является искусственным языком, т.е. ограниченным по своей форме и структуре. Чаще всего для построения поискового образа и предписания принято использовать перечни слов, сгруппированные по определенным правилам (методом упорядочения или с помощью логических связок).
Виды информационно-поисковых языков:
1) иерархические (иерархия – классификация от общего к частному). Такая организация используется для поиска книг в библиотеке (н-р, Универсальная десятичная классификация - УДК) (используется в библиотечном деле для индексирования книг)
2)алфавитно-предметные представляются как алфавитный список ключевых слов какого-либо документа (например, алфавитно-предметный указатель в конце книг). Используется для построения различных указателей, каталогов, картотек.
3) фасетные языки также используют дерево классов, но группируют его в блоки (фасеты). Индексирование в фасетных языках эффективнее за счет формул-шаблонов (н-р, ABC) (газетные и журнальные статьи, корпуса текстов по современной российской публицистике характеризуется по параметрам источника, автора, типа текста, жанра текста).
4) дескрипторные языки используют списки слов (дескрипторы), организованные в специальные словари (тезаурсы)
Типичная словарная статья имеет вид:
Дескриптор
С- ключивые слова (синонимы)
В- родовые слова (дескриптор, подчиняющий данный)
Н- видовые слова (дескриптор, подчиненный данному)
А- ассоциации (отношения)
В таких языках используются принцип координатного индексирования, т.е. перечисляются ключевые слова или дескрипторы, которые выражают центральную тему или целостную характеристику данного объекта.
Дескрипторные языки – наиболее естественная и популярная форма для выражения поисковых образов и поисковых предписаний и в настоящее время широко используется в современных ИПС (в частности во многих поисковых системах Интернет)
Основными требованиями, предъявляемыми к ИПЯ являются следующие:
— однозначность (каждая запись на ИПЯ должна иметь только один смысл, одно толкование, а любое понятие, смысл должны получить единообразную запись средствами ИПЯ);
— достаточная семантическая сила (способность отражать с необходимой полнотой и точностью смысловое содержание документов и запросов определенной предметной области);
— открытость (обеспечение возможности корректировки языка).
Прямой поиск
Прямой поиск – это такой поиск информации по тексту сайтов, который действует без преждевременной обработки данных, т.е. без переиндексации сайта.
Инвертированный файл
Инвертированный файл представляет собой структуру, которая состоит из двух частей:
словарь, содержащий все термы, встретившиеся в коллекции и ссылку на массив данных «пост-листа» для каждого из них. Помимо того возможно наличие специальных структур, ускоряющих поиск слова в словаре.
пост-листы, представляющие собой массив информации обо всех вхождениях данного слова в документы коллекции.
При реализации инвертированного файла можно организовать его как отдельную структуру или на основе В+ дерева, используя наработанные механизмы работы с ними.
При организации эффективного хранения индекса и оптимизации работы с ним требуется использовать алгоритмы сжатия информации. Наибольший объем имеют пост-листы, представляющие, в простейшем случае, массив идентификаторов содержащих их документов. Также, в различных реализациях, в них может храниться вес этого документа относительно данного слова, указания на коллекцию, к которой относится документ и другие данные.
В случае, если в пост-листе хранятся идентификаторы в возрастающем порядке, компактнее будет хранить их разность, чем идентификаторы целиком. Сами же числа сохраняют с применением техник кодирования чисел:
кодов переменной длины. Например, первые семь байтов каждого бита передают значимую часть числа, последний байт обозначает оканчивается ли на этом число или нет.
гамма и дельта кодирование Элиса и параметрические коды Голомба.
В случаях, когда требуется эффективное сжатие коротких пост-листов, имеет смысл объединять списки для нескольких слов. В этом случае получается список идентификаторов, который может быть эффективно кодирован одним из способов компактного хранения чисел. У каждого идентификатора указывается слово или список слов из объединенного списка, которые в нем встречаются. Можно указывать их номера, сжатые методом Хаффмана.
В случае реализации индекса на основе В+ деревьев на размер пост-листа накладывается ограничение реализации. Для того, чтобы разместить длинные пост-листы в индексе применяются два метода: 1. разбиение пост-листа. Один пост-лист размещается в нескольких записях. В этом случае ключем дерева является не только слово, но и первое значение в пост-листе. 2. вынесение длинных пост-листов во внешнюю, по отношению к дереву, структуру.
Потери связанные с повторением в ключе записи слов можно компенсировать префиксным сжатием всей страницы индекса. При получении пост-листа, разбитого на части, можно декодировать только нужную его часть, что позволяет более эффективно расходовать память.
При совершении поиска по поисковому запросу, работа с индексной информацией состоит из этапов поиска каждого слова запроса в словаре, получении для каждого пост-листа (пост-листов), раскодировании их, полном или дополнительном взвешивании документа по данному списку слов запроса, формировании результатов для пользователя.
Изменения индексной информации делятся на массовые, при которых изменяется большое число документов и имеет смысл полное перестроение индекс, и одиночные, при которых полного перестроения не происходит. Полное перестроение используется при начальной инициализации индекса. При этом в выделенной области оперативной памяти собирается индекс по части документов, при заполнении сохраняется во временных файлах, а потом многопоточным слиянием объединяется в единую индексную структуру. В случае реализации индекса через В+ деревья эффективно происходит добавление и удаление информации, разбиение длинных пост-листов позволяет эффективно обновлять только нужные их части, не считывая остальные.
Основные матем. модели поиска. Типовая структура ИПС. Принцип построения. Типы поисковых систем. Понятие индексирования. Алгоритм ранжирования по релевантности. Глобальный и Локальный поиск Стандартные приложения Internet.