Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
SIT.doc
Скачиваний:
36
Добавлен:
27.10.2018
Размер:
275.97 Кб
Скачать

2) Позиционные

-метод заглавия (по лексике заглавия составляются частотные словари без учета служебных слов)

- метод локализации - ключевым считается предложение, входящее в заголовок, подзаголовок, начало или конец какой-то части текста или всего текста. Такие предложения содержат инфо о целях, метода, результатах и выводах реферируемого исследования. (Эксперты анализируют структуру первичных документов определенного типа и делают выводы о том, где обычно находится ключевое предложение)

3) логико-семантическием - опираются на исследования структуры и семантики текста. Суть: выделить из некоторого текста предложения с наибольшим функциональным весом. Эта величина зависит от многих факторов: наличия в исследуемом предложении специальных семантически значимых слов, связи этого предложения с другими предложениями текста, синтаксического типа самого предложения и т.д.

25. Автоматическое индексирование текста

Термин И - двоякое толкование:

  • определение темы текста

  • процесс выбора ключевых слов для поискового обзора документа

Для определения темы текста – следующие методы:

  1. Дескрипторный/ индикаторный

Тексты различных тематик изучаются и из каждого текста выделяют ключевые слова (индикаторы), характерные для каждой тематики.

Индикаторы

а) безусловные (лекс ед-цы, передающие инфо однозначно относяющуюся к данной тематике: «гонка вооружений» - междунар отнош-я),

б) условные – употребл в текстах разной тематики (квазиоднозначные: мир, атака, самолет; и тематически многозначные: правительство).

Вначале комп учитывает безусловные индикаторы. Если найдены индикаторы, относящиеся к 2-м темам, дальше анализ не идет (вывод – текст политематичен).

В противном случае – 2 дальнейших этапа.

А) делается вывод, что текст относится к данной области

Б) поиск и анализ условных индикаторов. Вывод 1-го этапа подтверждается или заменяется другим.

Хорош для номинативных текстов (инструкций)

  1. фреймовый / метод координатной сети - для событийных текстов. Тема = объекты + действия.

Для оценки систем индексирования – 2 критерия:

  1. полнота - отношение кол-ва текстов, правильно отнесенных к теме, к общему количеству текстов, которые д б отнесены к данной теме

  2. точность отношение кол-ва текстов, правильно отнесенных к теме, к общему количеству текстов, которые комп отнес к этой тематике.

26. Краткая история развития маш. Перевода. Основные стратегии мп.

МП – выполняемое компьютером действие по преобразованию текста на одном естественном языке в текст на другом ЕЯ при сохранении эквивалентности содержания, а также результат такого действия. Ч-к м/б пред- и пост-редактором.

3 Этапа мп

1949-сер 60-х гг

1949 г – идея шифровки-дешифровки. Уоррен Уинстон: Китайский текст – тот же английский, только в другой системе кодирования

1955 – первый эксперимент по машинному переводу (текст по математике с фр на рус)

с 60-х стало понятно, что создать идеальную автоматич систему МП невоз можно.

сер 60–конец 70 автоматизир системы+больше теор (Systrun, АРАП, АМПАР)

Особенности 2-го этапа:

-поддержка многоуровневого анализа текста (особ разработан синтакс уровень)

-многовариантность

-правила перевода не былижестко привязаны к опред лингвистич обеспечению

конец 70-х – по наст время появление промышленных систем. Требования к промышл МП: устойчивость, тиражируемость, адаптируемость, скорость, комфорт юзера.

Стратегии:

1. прямой бинарный перевод (преобладающая стратегия). Деление предложения на фрагменты (именная группа, и т.д.), требует составления больших автоматич. переводных словарей, жесткая привязанность гр-ки к алгоритмам перевода

2. трансформационный перевод (перевод с трансфером) - идея, что нет прямой связи между язами, следовательно, исходный текст претерпевает преобразования на 3 стадиях: анализ, трансфер, синтез: а) лексико-морфол анализ текста с пом. словаря – в рез-те подстрочник; б) семантико-синтаксич этап: преобразование структур на уровне групп слов/предложений, например: N1+N2=>прил+сущ/сущ2+сущ1(ед/мн)

3. перевод с пом языка-посредника Язык посредник (язык использования знаний). Позволяет распознать смысл каждого предложения, генерирует содержание текста на другом языке, осуществляет лексический и грам. анализ исходного текста, представляет инфо на внутр яз машины.

Примеры систем: PARS3(встроен текст редактор, транслит неперевед слов, подбор синонимов, выделение многозначн слов), SILOD, SOCRAT, PROMT (80% отеч рынка, С-Петербург, 1991, : модули синхрон перевода, быстрого перевода, перевода из буфера обмена, для домашн. целей, для макинтош, для интранет, интернет; 3 вида словар: общий, специальные, пользов)

3 вида МП: а) информативный (грубый пословный для поверхн ознакомл), б) профессион (качеств), в) персональный (сами авторы текста)

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]