Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

информатика

.docx
Скачиваний:
4
Добавлен:
20.03.2015
Размер:
72.46 Кб
Скачать

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА, направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах. Собственно, только в последнем случае и идет речь о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения информатики и теории программирования к решению задач науки о языке. На практике, однако, к компьютерной лингвистике относят практически все, что связано с использованием компьютеров в языкознании.

Как особое научное направление компьютерная лингвистика оформилась в 1960-е годы. Русский термин «компьютерная лингвистика» является калькой с английского computational linguistics. Поскольку прилагательное computational по-русски может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативной лингвистики». Поток публикаций в этой области очень велик. Кроме тематических сборников, в США ежеквартально выходит журнал «Компьютерная лингвистика». Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике, которая имеет региональные структуры (в частности, европейское отделение). Каждые два года проходят международные конференции по компьютерной лингвистике – COLING. Соответствующая проблематика обычно бывает широко представлена также на различных конференциях по искусственному интеллекту.

Инструментарий компьютерной лингвистики.

Компьютерная лингвистика как особая прикладная дисциплина выделяется прежде всего по инструменту – т.е. по использованию компьютерных средств обработки языковых данных. Поскольку компьютерные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые различные средства программирования, то об общем понятийном аппарате компьютерной лингвистики говорить вроде бы не приходится. Однако это не так. Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В их основе лежит теория знаний, первоначально разрабатывавшаяся в области искусственного интеллекта, а в дальнейшем ставшая одним из разделов когнитивной науки. Важнейшими понятийными категориями компьютерная лингвистика являются такие структуры знаний, как «фреймы» (понятийные, или, как принято говорить, концептуальные структуры для декларативного представления знаний о типизированной тематически единой ситуации), «сценарии» (концептуальные структуры для процедурного представления знаний о стереотипной ситуации или стереотипном поведении), «планы» (структуры знаний, фиксирующие представления о возможных действиях, ведущих к достижению определенной цели). Тесно связано с категорией фрейма понятие «сцена». Категория сцены преимущественно используется в литературе по компьютерной лингвистике как обозначение концептуальной структуры для декларативного представления актуализованных в речевом акте и выделенных языковыми средствами (лексемами, синтаксическими конструкциями, грамматическими категориями и пр.) ситуаций и их частей.

Определенным образом организованный набор структур знаний формирует «модель мира» когнитивной системы и ее компьютерной модели. В системах искусственного интеллекта модель мира образует особый блок, в который в зависимости от выбранной архитектуры могут входить общие знания о мире (в виде простых пропозиций типа «зимой холодно» или в виде правил продукций «если на улице идет дождь, то надо надеть плащ или взять зонтик»), некоторые специфические факты («Самая высокая вершина в мире – Эверест»), а также ценности и их иерархии, иногда выделяемые в особый «аксиологический блок».

Большинство элементов понятий инструментария компьютерной лингвистики омонимично: они одновременно обозначают некоторые реальные сущности когнитивной системы человека и способы представления этих сущностей, используемые при их теоретическом описании и моделировании. Иными словами, элементы понятийного аппарата компьютерной лингвистики имеют онтологический и инструментальный аспекты. Например, в онтологическом аспекте разделение декларативных и процедурных знаний соответствует различным типам знаний, имеющимся у человека – так называемым знаниям ЧТО (декларативным; таково, например, знание почтового адреса какого-либо NN), с одной стороны, и знаниям КАК (процедурным; таково, например, знание, позволяющее найти квартиру этого NN, даже не зная ее формального адреса) – с другой. В инструментальном аспекте знание может быть воплощено в совокупности дескрипций (описаний), в наборе данных, с одной стороны, и в алгоритме, инструкции, которую выполняет компьютерная или какая-либо другая модель когнитивной системы, с другой.

Сфера КЛ весьма разнообразна и включает такие области, как компьютерное моделирование общения, моделирование структуры сюжета, гипертекстовые технологии представления текста, машинный перевод, компьютерная лексикография. В узком смысле проблематика КЛ часто связывается с междисциплинарным прикладным направлением с несколько неудачным названием «обработка естественного языка» (перевод английского термина Natural Language Processing). Оно возникло в конце 1960-х годов и развивалось в рамках научно-технологической дисциплины «искусственный интеллект». По своей внутренней форме словосочетание «обработка естественного языка» охватывает все области, в которых компьютеры используются для обработки языковых данных. Между тем в практике закрепилось более узкое понимание этого термина – разработка методов, технологий и конкретных систем, обеспечивающих общение человека с ЭВМ на естественном или ограниченном естественном языке.

Бурное развитие направления «обработки естественного языка» приходится на 1970-е годы, что было связано с неожиданным экспоненциальным ростом количества конечных пользователей ЭВМ. Поскольку обучение языкам и технологии программирования всех пользователей невозможно, возникла проблема организации взаимодействия с компьютерными программами. Решение этой проблемы коммуникации шло по двум основным путям. В первом случае предпринимались попытки адаптации языков программирования и операционных систем к конечному пользователю. В результате появились языки высокого уровня типа Visual Basic, а также удобные операционные системы, построенные в концептуальном пространстве привычных человеку метафор – ПИСЬМЕННЫЙ СТОЛ, БИБЛИОТЕКА. Второй путь – разработка систем, которые позволяли бы взаимодействовать с ЭВМ в конкретной проблемной области на естественном языке или каком-то его ограниченном варианте.

Архитектура систем обработки естественного языка в общем случае включает блок анализа речевого сообщения пользователя, блок интерпретации сообщения, блок порождения смысла ответа и блок синтеза поверхностной структуры высказывания. Особой частью системы является диалоговый компонент, в котором зафиксированы стратегии ведения диалога, условия применения этих стратегий, способы преодоления возможных коммуникативных неудач (сбоев в процессе общения).

Среди компьютерных систем обработки естественного языка обычно выделяются вопросно-ответные системы, диалоговые системы решения задач и системы обработки связных текстов. Изначально вопросно-ответные системы стали разрабатываться как реакция на плохое качество кодировки запросов при поиске информации в информационно-поисковых системах. Поскольку проблемная область таких систем была сильно ограничена, это несколько упрощало алгоритмы перевода запросов в представление на формальном языке и обратную процедуру преобразования формального представления в высказывания на естественном языке. Из отечественных разработок к программам такого типа относится система ПОЭТ, созданная коллективом исследователей под руководством Э.В.Попова. Система обрабатывает запросы на русском языке (с небольшими ограничениями) и синтезирует ответ. Блок-схема программы предполагает прохождение всех этапов анализа (морфологического, синтаксического и семантического) и соответствующих этапов синтеза.

Диалоговые системы решения задач, в отличие от систем предшествующего типа, играют в коммуникации активную роль, поскольку их задача заключается в том, чтобы получить решение проблемы на основе тех знаний, которые представлены в ней самой, и той информации, которую можно получить от пользователя. Система содержит структуры знаний, в которых фиксируются типичные последовательности действий для решения задач в данной проблемной области, а также сведения о необходимых ресурсах. Когда пользователь задает вопрос или ставит определенную задачу, активизируется соответствующий сценарий. Если какие-то компоненты сценария пропущены или отсутствуют какие-то ресурсы, система выступает инициатором коммуникации. Так работает, например, система SNUKA, решающая задачи планирования военных операций.

Системы обработки связных текстов довольно разнообразны по структуре. Их общей чертой можно считать широкое использование технологий представления знаний. Функции систем такого рода заключаются в понимании текста и ответах на вопросы о его содержании. Понимание рассматривается не как универсальная категория, а как процесс извлечения информации из текста, определяемый конкретным коммуникативным намерением. Иными словами, текст «прочитывается» только с установкой на то, что именно потенциальный пользователь захочет узнать о нем. Тем самым и системы обработки связных текстов оказываются отнюдь не универсальными, а проблемно-ориентированными. Типичными примерами систем обсуждаемого типа могут служить системы RESEARCHER и TAILOR, образующие единый программный комплекс, позволяющий пользователю получить информацию из рефератов патентов, описывающих сложные физические объекты.

Важнейшим направлением компьютерной лингвистики является разработка информационно-поисковых систем (ИПС). Последние возникли в конце 1950-х – начале 1960-х годов как ответ на резкое возрастание объемов научно-технической информации. По типу хранимой и обрабатываемой информации, а также по особенностям поиска ИПС разделяются на две больших группы – документальные и фактографические. В документальных ИПС хранятся тексты документов или их описания (рефераты, библиографические карточки и т.д.). Фактографические ИПС имеют дело с описанием конкретных фактов, причем не обязательно в текстовой форме. Это могут быть таблицы, формулы и другие виды представления данных. Существуют и смешанные ИПС, включающие как документы, так и фактографическую информацию. В настоящее время фактографические ИПС строятся на основе технологий баз данных (БД). Для обеспечения информационного поиска в ИПС создаются специальные информационно-поисковые языки, в основе которых лежат информационно-поисковые тезаурусы. Информационно-поисковый язык – это формальный язык, предназначенный для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запроса. Процедура описания документа на информационно-поисковом языке называется индексированием. В результате индексирования каждому документу приписывается его формальное описание на информационно-поисковом языке – поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса и поисковое предписание. Алгоритмы информационного поиска основаны на сравнении поискового предписания с поисковым образом запроса. Критерий выдачи документа на запрос может состоять в полном или частичном совпадении поискового образа документа и поискового предписания. В ряде случаев пользователь имеет возможность сам сформулировать критерии выдачи. Это определяется его информационной потребностью. В автоматизированных ИПС чаще используются дескрипторные информационно-поисковые языки. Тематика документа описывается совокупностью дескрипторов. В качестве дескрипторов выступают слова, термины, обозначающие простые, достаточно элементарные категории и понятия проблемной области. В поисковый образ документа вводится столько дескрипторов, сколько различных тем затрагивается в документе. Количество дескрипторов не ограничивается, что позволяет описать документ в многомерной матрице признаков. Часто в дескрипторном информационно-поисковом языке налагаются ограничения на сочетаемость дескрипторов. В этом случае можно говорить о том, что информационно-поисковый язык обладает синтаксисом.

Одна из первых систем, работавших с дескрипторным языком, была американская система УНИТЕРМ, созданная М.Таубе. В качестве дескрипторов в этой системе функционировали ключевые слова документа – унитермы. Особенность этой ИПС заключается в том, что изначально словарь информационного языка не задавался, а возникал в процессе индексирования документа и запроса. Развитие современных информационно-поисковых систем связано с разработкой ИПС бестезаурусного типа. Такие ИПС работают с пользователем на ограниченном естественном языке, а поиск осуществляется по текстам рефератов документов, по их библиографическим описаниям, а часто и по самим документам. Для индексирования в ИПС бестезаурусного типа используются слова и словосочетания естественного языка.

К области компьютерной лингвистики в определенной степени могут быть отнесены работы в области создания гипертекстовых систем, рассматриваемых как особый способ организации текста и даже как принципиально новый вид текста, противопоставленный по многим своим свойствам обычному тексту, сформированному в гутенберговской традиции книгопечатания. Идея гипертекста связывается с именем Ванневара Буша – советника президента Ф.Рузвельта по науке. В.Буш теоретически обосновал проект технической системы «Мемекс», которая позволяла пользователю связывать тексты и их фрагменты по различным типам связей, преимущественно по ассоциативным отношениям. Отсутствие компьютерной техники сделало проект труднореализуемым, поскольку механическая система оказалась чрезмерно сложной для практического воплощения.

Идея Буша в 1960-е годы получила второе рождение в системе «Ксанаду» Т.Нельсона, которая уже предполагала использование компьютерной техники. «Ксанаду» позволял пользователю прочитывать совокупность введенных в систему текстов различными способами, в различной последовательности, программное обеспечение давало возможность как запоминать последовательность просмотренных текстов, так и выбирать из них практически любой в произвольный момент времени. Множество текстов со связывающими их отношениями (системой переходов) было названо Т.Нельсоном гипертекстом. Многие исследователи рассматривают создание гипертекста как начало новой информационной эпохи, противопоставленной эре книгопечатания. Линейность письма, внешне отражающая линейность речи, оказывается фундаментальной категорией, ограничивающей мышление человека и понимание текста. Мир смысла нелинеен, поэтому сжатие смысловой информации в линейном речевом отрезке требует использования специальных «коммуникативных упаковок» – членение на тему и рему, разделение плана содержания высказывания на эксплицитные (утверждение, пропозиция, фокус) и имплицитные (пресуппозиция, следствие, импликатура дискурса) слои. Отказ от линейности текста и в процессе его представления читателю (т.е. при чтении и понимании) и в процессе синтеза, по мнению теоретиков, способствовал бы «освобождению» мышления и даже возникновению его новых форм.

Коммуникативная функция. Важнейшим средством человеческого общения является язык.

Он выступает орудием общения, осуществляя таким образом коммуникативную функцию. Общаясь друг с другом, люди передают свои мысли, волеизъявления, чувства и душевные переживания, воздействуют друг на друга в определённом направлении, добиваются общего взаимопонимания. Язык даёт людям возможность понять друг друга и наладить совместную работу во всех сферах человеческой деятельности. Язык был и остаётся одной из сил, которые обеспечивают существование и развитие человеческого общества.

Язык как средство общения является общим достоянием. Он может выполнять при этом две социальные функции - интегрирующую и дифференцирующую. Эти социальные функции язык выполняет тогда, когда происходит историческое образование языков на базе концентрации диалектов или объединения языков, а также изоляции языка.

Интегрирующую функцию язык выполняет тогда, когда он используется как язык межнационального или мирового общения. Такие социальные функции осуществляет русский язык. язык, который не используется для общения между народами, выполняет дифференцирующую функцию. Это - родной язык той или иной нации или народности.

Когнитивная и аккумулятивная функции языка. Коммуникативная функция - одна из основных социальных функций языка. Вторая основная функция языка обусловлена содержанием общения. Предназначенность языка быть средством выражения, передачи и хранения содержания называют его когнитивной функцией. Функцию языка отражать и сохранять знания называют аккумулятивной.

Стилевые и речевые функции. Знание языка, его категорий и единиц необходимо при изучении языка. Необходимо оно и для преподавания языка. Для того чтобы пользоваться языком, надо овладеть им, т.е. сформировать навыки и умения говорить и читать, писать и слушать речь других. Свободное владение языком опирается на речевую практику, на превращение знания языковых средств в навыки и умения общения на том или ином языке в любых условиях коммуникации.

Включение языковых средств в контекст предполагает знакомство со стилями языка и стилями речи. Те и другие не образуют особых языков; они являются вариантами языка и нормами его использования, образуя его стилевую функцию.

Функции единиц языка. Язык как важнейшее средство общения и обобщения выполняет своё общественное назначение благодаря гибкости своих единиц, многомерности и динамичности системы языка, его категорий.

Разные единицы языка различно участвуют в выполнении функций языка, в выражении и передаче сообщения. Непосредственно в акте речи сообщения используются номинативные и предикативные единицы языка

-слова и предложения. Номинативными единицами являются не только отдельные знаменательные слова (дом, ходить, пять, хороший, быстро и т.п.), но и составные наименования и фразеологизмы (железная дорога, от всего сердца). Предикативными единицами являются различного рода предложения.

Кроме коммуникативных единиц, язык располагает ещё строевыми единицами, необходимыми для построения номинативных и предикативных единиц. Такими единицами языка являются фонемы и морфемы, словоформы и модели словообразования, словоизменения и построения предложений.

Все единицы языка, как и все знаковые единицы, обладают материальной стороной. Они должны восприниматься органами чувств, прежде всего органами слуха и зрения. Способность единиц языка быть воспринятыми называют их перцептивной функцией. Единицы языка служат для обозначения и разграничения чего-то иного, идеального и материального. Способность единиц языка обозначать и различать называют их сигнификативной функцией.