- •Isbn 978-5-9765-0098-3 (Флинта) isbn 978-5-02-034597-3 (Наука)
- •1.1.2. Методы воспроизведения и обработки данных
- •1.1.3. Понятие информации
- •1.1.4. Понятие контекстного метода
- •1.2. Данные
- •1.2.2. Операции
- •1.3.2. Классификация прикладных программ
- •1.3.3. Периферийные устройства
- •1.4. Интеллектуальные информационные системы
- •1.4.1. Искусственный интеллект (Artificial Intelligence)
- •1.4.2. Нейронные сети
- •1.4.3. Экспертные системы
- •2. Обзор лингвистических программ
- •2.1.1. Текстовые процессоры
- •2.1.3. Генераторы текстов и «говорящие» программы
- •2.2. Машинный перевод
- •2.2.1. Основные этапы развития машинного перевода
- •2.2.2. Как переводит компьютер
- •2.2.3. Классификация систем
- •2.3. Компьютерная лингвистика: нестандартные применения
- •2.3.1. Определение языка сообщения
- •2.3.2. Взлом шифров
- •2.3.3. Установление авторства
- •2.3.4. Построение роботов-поисковиков и снифферов
- •Заключение
- •Приложение
- •Оглавление
- •1 . Информация. Информационные
- •1.1. Информация 3
- •Информационный обмен, сигналы, данные 3
2. Обзор лингвистических программ
. ■ 2.1. ВИДЫ ЛИНГВИСТИЧЕСКИХ ПРОГРАММ
В наше время технологии автоматической обработки текстов на естественном языке являются весьма перспективными, и результаты их исследований представляют собой определенный коммерческий интерес, в связи с чем оказывается довольно трудным найти какую-либо специфическую информацию по данным темам, выходящую за рамки популярной литературы.
Компьютерная лингвистика (КЛ) — наука, родившаяся на стыке информатики и языкознания из потребности в общении с компьютером на естественном языке.
Спектр приложений КЛ простирается от простейших программок обработки текста (транслитерации, проверки правописания и других) до более сложных, например, программы автореферирования, поисковые системы и программы машинного перевода.
Изучением многообразия лингвистических программ, их ти- пологизацией и другими проблемами компьютерной лингвистики в России занимается междисциплинарный семинар ДИАЛОГ, который проводился с 1975 по 1989 г. и был возобновлен в 1995 г. Это самое представительное российское мероприятие, целиком посвященное компьютерной лингвистике и ее приложениям, собирающее каждый год большое число ведущих специалистов в области интеллектуальных языковых технологий из компьютерных фирм, вузов и научных институтов со всей России и из-за рубежа. Постоянными участниками ДИАЛОГа являются Московский государственный университет, РГГУ, Институт языкознания РАН, компании «ABBYY», «Яndex», «ПРОМТ»; РосНИИ искус-
37
ственного интеллекта, Институт проблем информации РАН. Научная программа семинаров ДИАЛОГ охватывает основные направления фундаментальных исследований и коммерческих разработок, находящихся на пересечении лингвистики, методов представления и обработки знаний и самых современных информационных технологий. В 2007 г. обновился сайт семинара http:// www.dialog-21.ru/. Теперь этот профессионально сделанный веб-ресурс предоставляет самые свежие новости из мира компьютерной лингвистики и интеллектуальных технологий. На сайте работает конференция, публикуется еженедельный дайджест наиболее интересных новостей. Кроме того, здесь можно найти все материалы семинаров ДИАЛОГ за последние три года.
Возрожденный в 1995 г. в статусе международного ДИАЛОГ на сегодня остается единственным мероприятием подобного рода, собирающим не только цвет российской лингвистической науки, но и крупнейшие компании, работающие в области компьютерной лингвистики, а также авторитетных представителей смежных наук. Он играет ключевую роль в развитии связей между отечественными фирмами, научными институтами и вузами, интересующимися данной тематикой. Аудитория семинара постоянно растет, а число докладов, опубликованных в трудах семинара, увеличилось по сравнению с 1995 г. втрое.
В определенный момент ДИАЛОГ достиг масштаба, требующего некоторой реорганизации для его дальнейшего развития. Поэтому в прошлом году было принято решение о создании Ассоциации «Компьютерная лингвистика и интеллектуальные технологии» (КОЛИНТ). Ее учредителями стали постоянные участники ДИАЛОГа: компании «ABBYY», «Яndex», «ПРОМТ», «Ашманов и партнеры», SCIPER (Париж), а также Российская ассоциация искусственного интеллекта, научные институты ИПИ и ИППИ РАН, РосНИИ искусственного интеллекта, ИМ СОРАН, ИИ Казанского госуниверситета, филологический факультет МГУ.
Это позволило вывести ДИАЛОГ на новый уровень организации и представительности. Без преувеличения можно сказать, что именно ДИАЛОГ позволяет сегодня оценить текущее состо-
38
яние отечественной прикладной лингвистики и ее приложений в информационных технологиях, задать ориентиры для их развития.
Предлагается выделить в области интересов ассоциации следующие тематические направления КОЛИНТ (данный список открыт для обсуждения):
теоретическая и когнитивная лингвистика;
синтаксис, семантика, прагматика и их взаимодействие;
диалог и речевой акт;
модели национальных языков;
интерфейсы на естественном языке;
понимание связного текста и модель предметной области;
речевое взаимодействие с компьютером: анализ и синтез;
технологии представления и обработки знаний;
естественный язык и Интернет;
машинный перевод;
автоматическая обработка полнотекстовых документов;
корпусная лингвистика;
словарь, тезаурус, онтология.
Большое количество лингвистических программ собрано в Каталоге лингвистических программ и ресурсов в Сети (www.rvb. ru/soft/-catalogue-/catalogue.html).
Данный каталог включает в себя описание программ, связанных с анализом текстов и вычислительной лингвистикой, а также соответствующих ресурсов, доступных сегодня в Интернете. Упор при составлении каталога делался на бесплатные программы, доступные для загрузки. Однако описаны также некоторые on-line и коммерческие версии программ. Тематически каталог разбит на следующие разделы:
программы анализа и лингвистической обработки текстов;
программы преобразования текстов;
39
психолингвистические программы; генераторы текстов и «говорящие» программы; системы обработки естественного языка; коллекции ресурсов; словари и тезаурусы.