- •«Компьютерная лингвистика»
- •Языковые и неязыковые проблемы искусственного интеллекта.
- •Знание и понимание. Основные методы и структуры представления знаний о языке и мире в компьютерных системах.
- •Изомерийно-неизомерийные отношения в синтаксисе.
- •Принципы организации машинных словарей. Словари словоформ, их достоинства и недостатки.
- •База данных и база знаний. Картина мира и ее отражение в базе знаний.
- •Вероятностные модели и их реальное наполнение на разных уровнях языка.
- •Машинный перевод как одно из направлений искусственного интеллекта.
- •Познание как система.
- •Основные виды языковой изомерии.
- •10. Сценарий как структура логических знаний о ситуации
- •Моделирование единиц языка на всех функциональных языковых уровнях.
- •12.Проблемы анализа и синтеза осмысленных текстов в интеллектуальных системах синтез текста
- •14.Системное грамматическое кодирование разных частей речи.
- •15.Математические структуры для представления полных знаний о языке: плюс-минусовой куб, декартово произведение, симметрично-асимметричные матрицы. Их прогностические возможности.
- •16. Полисемия и омонимия как проблема автоматического перевода
- •18. Познание как система. Проблема снятия неполноты знаний в интеллектуальных системах.
- •19.Системное грамматическое и семантическое кодирование. Концепция матричного машинного словаря.
- •20. Конвергенция и дивергенция на уровне словообразования и словоизменения.
- •26. Понятие лингвистического универсума. Мозаичность отражения реального мира с помощью языка
- •27. Лингвистические проблемы машинного перевода
-
Моделирование единиц языка на всех функциональных языковых уровнях.
Едини́ца языка́ — элемент системы языка, неразложимый в рамках определённого уровня членения текста и противопоставленный другим единицам[1] в подсистеме языка, соответствующей этому уровню. Может быть разложима на единицы низшего уровня.
В отношении разложимости различают простые и сложные единицы: простые абсолютно неделимы (морфема как значимая единица, фонема); сложные делимы, однако деление обязательно обнаруживает единицы низшего языкового уровня.[2]
Совокупности основных языковых единиц образуют уровни языковой системы.
По признаку наличия звуковой оболочки выделяются следующие типы единиц языка[2]:
-
материальные — имеют постоянную звуковую оболочку (фонема, морфема, слово, предложение);
-
относительно-материальные — имеют переменную звуковую оболочку (модели строения слов, словосочетаний, предложений, обладающие обобщённым конструктивным значением, воспроизводимым во всех построенных согласно им единицах);
-
единицы значения — не существуют вне материальных или относительно-материальных, составляя их смысловую сторону (сема, семема).
Среди материальных единиц по признаку наличия значения выделяются[2]:
-
односторонние — не имеют собственного значения (фонема, слог); участвуют в формировании и различении звуковых оболочек двусторонних единиц. Иногда к односторонним единицам относят и сами звуковые оболочки;
-
двусторонние — помимо звучания, наделены значением (морфема, слово, фразеологическая единица, предложение). Могут также называться высшими единицами языка.[
12.Проблемы анализа и синтеза осмысленных текстов в интеллектуальных системах синтез текста
Машинный синтез осмысленных текстов и использование ЭВМ для их сочинения преследуют две важные цели. Во-первых, нужно наладить удобный для человека диалог с машиной. Ведь общение с ЭВМ идет по большей части с помощью специальных языков, сильно отличающихся от естественных, и люди, не владеющие такими специальными языками (изучение которых требует времени и значительных усилий), не могут работать с ЭВМ. Возникает естественная задача: научить ЭВМ воспринимать и "понимать" тексты, указания, команды, сформулированные на естественном языке, а также выдавать результирующую информацию, отвечать на вопросы также на естественном языке.
При разработке интерпретирующей системы необходимо уточнять, каким образом ограничиваются возможности выбора, которыми располагает говорящий в любой данный момент (например, эти уточнения могут быть записаны в виде грамматики), но зато не требуется формулировать причины выбора той или иной возможности 2. система не рассматривает того, почему автор употребил пассивную форму, а не сделал другой возможный в данный момент выбор. генератор должен располагать достаточно общими принципами для принятия такого решения, которое он может использовать во всех похожих ситуациях. В то время как исследование в области процессов интерпретации может ограничиться описанием ограничений, налагаемых на имеющиеся возможности для наиболее эффективного выбора одной из них, исследование в области процессов синтеза должно для различных ситуаций устанавливать, почему одна возможность лучше других 3.
Анализ
Большие объемы информации, хранящейся в электронном виде, привели к неэффективности применения в поисковых системах алгоритмов контекстного поиска, выполняющих поиск путем последовательного просмотра текста документов. Так как в данном случае, при получении очередного запроса от пользователя приходится просматривать всю коллекцию документов заново, и, как следствие, время выдачи результата поисковой системой становится неприемлемо большим. В связи с этим получили распространение системы с предпроцессингом, то есть с предварительной обработкой (индексированием) всех имеющихся в системе документов.
С обработкой информации на естественном языке связан ряд проблем, основные из которых перечислены ниже:
Синонимия. Одно и тоже понятие может быть выражено различными словами. В результате релевантные документы, в которых используются синонимы понятий, указанных пользователем в запросе, могут быть не обнаружены системой.
Устойчивые сочетания слов. Словосочетания могут иметь смысл отличный от смысла, который имеют слова по отдельности.
Омонимия и явления «смежные с омонимией». Грамматические омонимы - разные по значению слова, но совпадающие по написанию в отдельных грамматических формах. Это могут быть слова одной или разных частей речи. Лексические омонимы - слова одной части речи, одинаковые по звучанию и написанию, но разные по лексическому значению. Как следствие, системой могут быть выданы нерелевантные документы.
Морфологические вариации. Во многих естественных языках слова имеют несколько морфологических форм, различающихся по написанию.
Можно выделить два основных подхода к обработке документов в поисковых системах: статистический и лингвистический.
13.Способы снятия омонимии в естественноязыковых компьютерных системах.
Омонимия и явления «смежные с омонимией». Грамматические омонимы - разные по значению слова, но совпадающие по написанию в отдельных грамматических формах. Это могут быть слова одной или разных частей речи. Лексические омонимы - слова одной части речи, одинаковые по звучанию и написанию, но разные по лексическому значению. Как следствие, системой могут быть выданы нерелевантные документы.
Снятие омонимии полезно во многих приложениях компьютерной лингвистики, в частности, в поисковых системах оно может повысить точность обработки некоторых классов запросов и/или сократить объем хранимой информации.
Существующие подходы к снятию омонимии традиционно разделяются на детерминированные (развиваемые с 60-х годов), то есть основанные на локальном или глобальном синтаксическом разборе и синтаксических словарях, и на вероятностные (начиная примерно с Brill, 1995), использующие статистику совместной встречаемости грамматических признаков слов в больших корпусах, омонимия в которых снята заранее.