Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
IngMet.doc
Скачиваний:
55
Добавлен:
02.03.2016
Размер:
4.21 Mб
Скачать

3.1.7. Текстологические методы приобретения знаний

Формально специальный текст описывается набором:

T = <, , , , >L

где  – материал наблюдений автора за предметной областью;

 – система научных понятий в момент создания текста;

 – субъективные взгляды автора;

 – общие места («вода»);

 – заимствования;

L – языковая среда, в которой вербализованы все компоненты.

В ходе анализа текста следует вычленять перечисленные компоненты для повышения эффективности выделения нужной информации. Кроме того, любой текст погружен в контекст (окружение текста).

Микроконтекст – ближайшее окружение единицы текста. Предложение приобретает значение в контексте абзаца, абзац – в контексте главы и т.д.

Макроконтекст – вся система знаний о предметной области. В макроконтекст входят, таким образом, связи и понятия, не упоминаемые явно в тексте.

Шаги понимания текста:

  1. Выдвижение предварительной гипотезы о смысле всего текста (предугадывание).

  2. Определение значений непонятных слов (специальных терминов).

  3. Возникновение общей гипотезы о содержании текста.

  4. Уточнение значения терминов и интерпретация отдельных фрагментов текста под влиянием общей гипотезы (дедуктивный путь).

  5. Формирование некоторой смысловой структуры текста за счет установления внутренних связей между отдельными важными (ключевыми) словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих фрагменты знаний.

  6. Корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (индуктивный путь).

  7. Принятие основной гипотезы.

При анализе текста важно выявление внутренних связей между отдельными элементами текста и понятиями. Виды связей в тексте:

  • эксплицитные (явные) – выражаются во внешнем дроблении текста;

  • имплицитные (скрытые).

Эксплицитные связи делят текст на структурные единицы (параграфы, абзацы и т.п.), используют перечисления, вводные слова (коннекторы) типа «во-первых», «во-вторых», «однако» и т.п.

Модель, которую строит аналитик на базе текста, определяется как

M2 = <, , , , , , >,

где , , ,  – получаются (экстрагируются) из текста T;

 – предварительные знания аналитика о предметной области;

 – общенаучная эрудиция аналитика;

 – личный опыт аналитика.

Алгоритм извлечения знаний из текста:

    1. Составление базового списка литературы по предметной области и ознакомление с литературой по списку.

    2. Выбор текста для извлечения знаний.

    3. Первое знакомство с текстом (беглое прочтение). Для работы с незнакомыми словами привлекаются специалисты или справочная литература.

    4. Формирование первой гипотезы о макроструктуре текста.

    5. Внимательное прочтение текста с выделением ключевых слов и выражений («смысловых вех»), компрессия текста.

    6. Определение связей между ключевыми словами, представление макроструктуры теста в виде графа или реферата.

    7. Формирование поля знаний на основании макроструктуры текста.

3.1.8. Структурирование (формирование поля знаний)

Простейший алгоритм структурирования:

  1. Определение входных {X} и выходных {Y} данных.

  2. Составление словаря терминов и набора ключевых слов N. Проводится текстуальный анализ всех протоколов сеансов извлечения знаний и выписываются все значимые слова, обозначающие понятия. Важен уровень осмысления значения терминов.

  3. Выявление объектов и понятий {A}. «Просеивание» словаря N и выбор значимых для принятия решений понятий и их признаков.

  4. Выявление связей между понятиями. Начало построение ассоциативной сети.

  5. Выявление метапонятий и детализация понятий.

  6. Построение пирамиды знаний.

  7. Определение отношений {RA} как внутри каждого из уровней пирамиды, так и между уровнями. Даются имена тем связям, которые обнаруживаются на шагах 4 и 5, а также обозначаются причинно-следственные, лингвистические, временные и другие виды отношений.

  8. Определение стратегий принятия решений (Sf).Выявление цепочек рассуждений, связывание всех сформированных ранее понятий и отношений в динамическую систему поля знаний.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]