Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Компьютерная лингвистика.docx
Скачиваний:
20
Добавлен:
22.12.2018
Размер:
52.92 Кб
Скачать
  1. Моделирование единиц языка на всех функциональных языковых уровнях.

  • Едини́ца языка́ — элемент системы языка, неразложимый в рамках определённого уровня членения текста и противопоставленный другим единицам[1] в подсистеме языка, соответствующей этому уровню. Может быть разложима на единицы низшего уровня.

  • В отношении разложимости различают простые и сложные единицы: простые абсолютно неделимы (морфема как значимая единица, фонема); сложные делимы, однако деление обязательно обнаруживает единицы низшего языкового уровня.[2]

  • Совокупности основных языковых единиц образуют уровни языковой системы.

    По признаку наличия звуковой оболочки выделяются следующие типы единиц языка[2]:

    • материальные — имеют постоянную звуковую оболочку (фонема, морфема, слово, предложение);

    • относительно-материальные — имеют переменную звуковую оболочку (модели строения слов, словосочетаний, предложений, обладающие обобщённым конструктивным значением, воспроизводимым во всех построенных согласно им единицах);

    • единицы значения — не существуют вне материальных или относительно-материальных, составляя их смысловую сторону (сема, семема).

    Среди материальных единиц по признаку наличия значения выделяются[2]:

    • односторонние — не имеют собственного значения (фонема, слог); участвуют в формировании и различении звуковых оболочек двусторонних единиц. Иногда к односторонним единицам относят и сами звуковые оболочки;

    • двусторонние — помимо звучания, наделены значением (морфема, слово, фразеологическая единица, предложение). Могут также называться высшими единицами языка.[

    12.Проблемы анализа и синтеза осмысленных текстов в интеллектуальных системах синтез текста

    Машинный синтез осмысленных текстов и использование ЭВМ для их сочинения преследуют две важные цели. Во-первых, нужно наладить удобный для человека диалог с машиной. Ведь общение с ЭВМ идет по большей части с помощью специальных языков, сильно отличающихся от естественных, и люди, не владеющие такими специальными языками (изучение которых требует времени и значительных усилий), не могут работать с ЭВМ. Возникает естественная задача: научить ЭВМ воспринимать и "понимать" тексты, указания, команды, сформулированные на естественном языке, а также выдавать результирующую информацию, отвечать на вопросы также на естественном языке.

     При разработке интерпретирующей системы необходимо уточнять, каким образом ограничиваются возможности выбора, которыми располагает говорящий в любой данный момент (например, эти уточнения могут быть записаны в виде грамматики), но зато не требуется формулировать причины выбора той или иной возможности 2. система не рассматривает того, почему автор употребил пассивную форму, а не сделал другой возможный в данный момент выбор. генератор должен располагать достаточно общими принципами для принятия такого решения, которое он может использовать во всех похожих ситуациях. В то время как исследование в области процессов интерпретации может ограничиться описанием ограничений, налагаемых на имеющиеся возможности для наиболее эффективного выбора одной из них, исследование в области процессов синтеза должно для различных ситуаций устанавливать, почему одна возможность лучше других 3.

    Анализ

    Большие объемы информации, хранящейся в электронном виде, привели к неэффективности применения в поисковых системах алгоритмов контекстного поиска, выполняющих поиск путем последовательного просмотра текста документов. Так как в данном случае, при получении очередного запроса от пользователя приходится просматривать всю коллекцию документов заново, и, как следствие, время выдачи результата поисковой системой становится неприемлемо большим. В связи с этим получили распространение системы с предпроцессингом, то есть с предварительной обработкой (индексированием) всех имеющихся в системе документов.

    С обработкой информации на естественном языке связан ряд проблем, основные из которых перечислены ниже:

                       Синонимия. Одно и тоже понятие может быть выражено различными словами. В результате релевантные документы, в которых используются синонимы понятий, указанных пользователем в запросе, могут быть не обнаружены системой.

                       Устойчивые сочетания слов. Словосочетания могут иметь смысл отличный от смысла, который имеют слова по отдельности.

                       Омонимия и явления «смежные с омонимией». Грамматические омонимы - разные по значению слова, но совпадающие по написанию в отдельных грамматических формах. Это могут быть слова одной или разных частей речи. Лексические омонимы - слова одной части речи, одинаковые по звучанию и написанию, но разные по лексическому значению. Как следствие, системой могут быть выданы нерелевантные документы.

                       Морфологические вариации. Во многих естественных языках слова имеют несколько морфологических форм, различающихся по написанию.

    Можно выделить два основных подхода к обработке документов в поисковых системах: статистический и лингвистический.

    13.Способы снятия омонимии в естественноязыковых компьютерных системах.

                       Омонимия и явления «смежные с омонимией». Грамматические омонимы - разные по значению слова, но совпадающие по написанию в отдельных грамматических формах. Это могут быть слова одной или разных частей речи. Лексические омонимы - слова одной части речи, одинаковые по звучанию и написанию, но разные по лексическому значению. Как следствие, системой могут быть выданы нерелевантные документы.

    Снятие омонимии полезно во многих приложениях компьютерной лингвистики, в частности, в поисковых системах оно может повысить точность обработки некоторых классов запросов и/или сократить объем хранимой информации.

    Существующие подходы к снятию омонимии традиционно разделяются на детерминированные (развиваемые с 60-х годов), то есть основанные на локальном или глобальном синтаксическом разборе и синтаксических словарях, и на вероятностные (начиная примерно с Brill, 1995), использующие статистику совместной встречаемости грамматических  признаков слов в больших корпусах, омонимия в которых снята заранее.