Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
bilety.doc
Скачиваний:
11
Добавлен:
25.09.2019
Размер:
492.54 Кб
Скачать

6Текстовые процессоры

Лингв проц-р (ЛП) – посредник м/у польз-лем и БД, в кот. хранится интересующая его инфа. Задача ЛП – преобразование ест яз пр-я (т-та) в нек набор сем стр-р, явл-ся формал предст-ем смысла исход пр-я (т-та). Цель – обеспечить исходные данные для работы посиковых мех=змов программ. Операции, выполняемые с пом ЛП: - разбиение т-та док-та на слова - распознавание яз док-та - морфологизация и лемматизация (преобр-е т-вых форм слов в словарные) - индексация слов и с/с-й

Для каждой операции сущ-ет неск-ко вар-тов ее практ реализ-и. На входе – т-вый док-т м.б. с наложенным форматированием, на выходе – бинарный морф образ док-та, с кот. можно работать без учета особ-тей конкр языка.Т-вые проц-ры (ТП) решают задачу извлечения знаний в первую очередь из неструктурированных и слабоструктурированных т-тов на ест яз. ЛП м.б. выполнен в виде библиотеки, доступной разл приложениям; не взд-ет напрямую с польз-лем (эти ср-ва предоставл программным окруж-ем ЛП). Также в задачу ЛП не входит прям взд-е с БД исходных данных и БД рез-тов анализа – эту f-ю выполняет прикладная программа.

Уровни анализа: лекс и морв не предст-ют серьез трудностей для программной реализ-и. наиб трудность – синт-с + сем-ка.

1. Лекс сводится к стандартному лекс анализу, применяемому для формал яз-в. ЛА выполняет вспомогат f-и, не имеет возм-ти взд-я с польз-лем / настройки. Блок ЛА принимает исход т-т непосред-но от т-вого редактора. Анализируемый т-т – массив, кот. сост из прописных и строчных букв алфавита дан яз, цифр и знаков пунктуации. Анализатор д. преобразовать его в массив лекс 1ц. для кажд лекс 1цы формир-ся отд строка, в кот-ю копируются все смыслы, принадлежащие дан лекс 1це. При этом удаляются пробелы, символы переноса, конца строки и незнакомые символы.

Рез-т ЛА – выходной динамич массив, в кот. занесены указатели на все сформ-ся строки.

2. Морф сводится к списку слвф-мы в БД.

Задачи: - опр-ть все грам хар-ки слова (POS, р,ч,п, одуш-ть, спряжение) - приводить разл грам формы слова к нормал форме - получать все грам формы слова - проверять орфографию

Методы:

1) декларативный – поиск нужной слвф-мы в сл-ре и копирование морф инфы в программу. Хар-но наличие полн сл-ря всех возм-х слвф-м для кажд слова. Кажд слвф-ма снабжается полной и однозначн морф инфой, в кот-ю входят пост и перемен морф параметры.

Недостатки: - чрезмерно большой объем сл-ря (=> технич проб-мы); - невозм-ть полного размещения сл-ря в оперативной памяти ПК при МА; - высок избыточность инфы, связ с пост признаками каждой слвф-мы.

Достоинства: - простота при создании; - высокая скорость.

2) процедурный – кажд слово делится на основы и аффиксы. Сл-рь содержит т-ко основы слов + ссылки на соотв строки в таблице возм-х аф-сов. Осн критерий – основа д. оставаться неизменяемой во всех возм-х слвф-мах дан слова. => из сл-ря основ необх-мо поочередно выбирать все основы, совпад с начал буквами анализируемого слова и перебирать все возм аф-сы. Точн совпадение – рез-т успешный. Пост морф парам-ры опр-ся основой, а переменные – аф-сами.

Недостаток: невозм для кажд слова опр-ть основу и аффикс (ej мест-е)

3) комбинированный: 1. поиск по сл-рю морфем; 2. посик по сл-рю основ.

4) вероятностно-статистический – для кажд лекс-грам класса слвф-м указ-ся частота встречаемости исход лекс-грам класса отн-но других лекс-грам классов дан слвф-мы.

3. Синт. Осн пр-ма – решение неоднозначности. 2 подхода к это пр-ме:

а) формально-грам – создание сложн с-мы правил, кот. позволили бы в кажд конкр случае принимать решение в пользу любой синт стр-ры.

б) вероятностно-статистический – сбор статистики встречаемости разл стр-р в похожем конт-те, на основе кот. принимается решение о выборе вар-та стр-ры.

Задачи СА:

- грам разбор пр-я с построение дерева синт-сем зависимостей м/у его словами

- выделение п-й пр-я с опр-ем их синт и сем ролей

- разрешение морф омонимии

Этапы:

  1. предсинт анализ – пр-е преобразуется в последовательность базовых текстовых 1ц (ПБТЕ), кот. соотв-ют отд словам и знакам препинания.

  2. собственно синт ан-з – ПБТЕ подверг-ся комплексу процедур грам разбора в соотв-и с правилами согласования и управления в РЯ с исп-ем сл-ря моделей управления предикатов (V и отглаг N). Рез-т – список сем-ки значимых ТЕ + разл типов отн-й м/у ними (дерево синт-сем зависимостей).

  3. постсинт ан-з:

- фильтрация сем-ки малозначимых слов

- замена синонимов и многословных п-й

- приведение п-й к > общим

Выявляются синт-сем отн-я м/у п-ми т-та, синтезир-ся именные группы и опр-ся синт роли п-й, пр-й в дереве зависимости.

4. Сем

Этапы:

  1. поверхностный СА – устанавл-ся сем отн-я в рамках пр-я

  2. глубинный СА – устан-ся сем связи м/у пр-ми, сем узлы связ-ся с др сем узлами, орг-ся связно-сем сеть

  3. прагматический СА – смысловое связывание т-та в единое целое и его интерпретация

Сем узел – такой объект т-вой сем-ки, у кот. заполнены все валентности как эксплицитн выраж-я в т-те, так и имплицитные. В конце СА п/е выявления синтагм и парадигм связей строятся сем узлы. Источник связи – данные из синт анализ-ра + сл-рей тезаурусов. Все связи анализ-ся, комбинируются, строятся сем узлы.

Основа сем ан-за – 2 с-мы: синтагм и парадигм отн-й м/у лексемами:

  1. толково-комбинаторн сл-ри – опис-ют ограничения на сочетаемость лекс 1ц в опр синт ролях

  2. тезаурус – многоуровненвый тематич сл-рь-классификатор по устоявшимся отраслям знаний. Он отражает след виды отн-й м/у словами:

- гиперлексемные (гиперонимы – обобщ п-я, гипонимы – узк п-я)

- синонимич

- антонимич

- часть-целое (мероним - голоним)

Области применения ЛП:

  • внутренние трансляторы (с одних яз-в индексирования на другие и на ИПЯ)

  • поисков ЛП (сопоставление кодов и поисков предписаний на ИПЯ + принятие решения об их тематич соотв-и)

  • ком трансляторы: прямые (с яз индексирования на яз-посредник) и обратные

  • процессоры актуализации лингвопроцессорных и инф-яз сл-рей

  • проц МП

  • проц транслитерации

ej LinkParser USA 90s

проект Микрокосмос 91-99 - МП

10Контент-анализ, количест анализ текстов и текстовых массивов с целью послед содержат интерпретации выявленных числовых закономерностей.

Осн идея КА проста и интуитивно наглядна. При восприятии текста и особенно больших текст-х потоков мы достаточно хорошо ощущаем, что разн форм и содержат компоненты предст-ны в них в разн степени, причем эта степень по крайней мере отчасти поддается измерению: ее мерой служит то место, которое они занимают в общем объеме, и/или частота их встречаемости. Через все выступления X-а красной нитью проходит тема Y; X постоянно обращался в своей речи к проблеме Y; Он не упускал ни одного случая, чтобы не лягнуть Z-а; Ну, задудел в свою дуду, – все эти выражения, число кот м легко увеличить, свидетельствуют об осознании нами такого феномена, как наличие в изливающемся на нас информацион потоке нек настойчиво повторяющихся тем, образов, ссылок на проблемы, оценок, утверждений (Карфаген должен быть разрушен или Российская экономика задыхается без инвестиций), аргументов, формальных конструкций, конкр имен и т.д. Более того, подобно тому как в мире механики мы ощущаем не скорость, а ускорение, так и при восприятии текста мы особенно хорошо осознаем именно динамику содержания – те случаи, когда, например, кого-то вдруг перестают или начинают бранить или когда в текстах вдруг появл-ся какая-то новая тема.

Замысел КА закл-ся в том, чтобы систематиз-ть эти интуитивные ощущения, сделать их наглядными и проверяемыми и разработать методику целенаправленного сбора тех текст-х свидетельств, на кот-х эти ощущения основ-ся. При этом предполаг-ся, что вооруженный такой методикой исследователь сможет не просто упорядочить свои ощущения и сделать свои выводы более обоснованными, но даже узнать из текста больше, чем хотел сказать его автор, ибо, скажем, настойчивое повторение в тексте каких-то тем или употребление каких-то характерных формал эл-тов или конструкций м не осознаваться автором, но обнаруживает и опр образом интерпретируется исследователем – отсюда принадлежащее социологу А.Г.Здравомыслову полушутливое определение КА как «научно обоснованного метода чтения между строк».

Реально гл отличит чертой КА явл-ся его квантитативный характер. КА – это прежде всего количеств-ый м-д, предполаг-щий числовую оценку каких-то компонентов текста, могущую дополняться также различн качественными классификациями и выявлением тех/иных структурн закономерностей. Поэтому наиб удачным опр-ем КА можно считать то, кот зафиксировано в относительно недавней книге Мангейма и Рича: КА – это систематическая числовая обработка, оценка и интерпретация формы и содержания инф-о источника.

С т зр лингвистов и специалистов по информатике, КА явл-ся типичным примером прикладного инф-го анализа т-та, сводящегося к извлечению из всего разнообразия имеющейся в нем инфы каких-то специально интересующих исследователя компонентов и представлению их в удобной для восприятия и последующего анализа форме. Многочисленные конкр варианты КА различ-ся в зависимости от того, каковы эти компоненты и что именно понимается под т-том.

Конкр прикладные цели КА также варьируют. Еще в 1952 амер исслед-тель Б.Берелсон сформулировал 17 целей КА – описание тенденций в изм-нии содержания коммуник процессов; описание различий в содержании коммуник процессов в разл странах; сравнение различ СМИ; выявление исп-мых пропагандистских приемов; опр-ние намерений и иных характ-тик участников коммуникации; опр-ние психологич состояния индивидов и/или групп; выявление установок, интересов и ценностей разл групп населения и обществ институтов; выявление фокусов внимания индивидов, групп и соц институтов и др.

Исторически КА – наиб ранний систематич подход к изучению текста. Самый 1ый упоминаемый в лит-ре КА-тич-й опыт – это проведенный в Швеции в 18 в. анализ сборника из 90 церковных гимнов, прошедших гос цензуру и приобретших большую популярность, но обвиненных в несоответствии религ догматам. Наличие/отсутствие такового соответствия и определялось путем подсчета в т-тах этих гимнов религ символов и сравнения их с др религ текстами, в частности запрещенных церковью т-тами «моравских братьев». В 1930–40-х гг б вып-ны исслед-я, признаваемые ныне классикой КА, прежде всего работы Г.Лассуэлла, деят-ть кот продолжалась и в послевоенные годы. Во время 2 Мировой войны имел место самый знаменитый эпизод в истории КА – это предсказание британскими аналитиками времени начала исп-я Германией крылатых ракет «Фау-1» и баллистических ракет «Фау-2» п/в Великобритании, сделанное на основе анализа (совместно с американцами) внутр пропагандистских кампаний в Германии.

Начиная с 1950-х гг КА как исследоват м-д активно исп-ся практич-ки во всех науках, так/иначе практикующих анализ т-товых источников – в т. массовой коммуникации, в социологии, политологии, истории и источниковедении, в культурологии, литературоведении, прикл лингвистике, психологии и психиатрии. Разнообразие конкр проектов, реализов-х за примерно 70-летнюю историю интенсивного исп-я КА, очень велико. Среди интересных проектов, вып-х за последние годы в России, м назвать исслед-е образов и метафор, исп-шихся в 1996–1997 в ходе развернутой тогда в российской прессе дискуссии о национ идее, а также вып-ный в тот же период анализ т-тов левонационалистич оппозиции. Локальные КА-тич-е проекты периодически реализ-ся в ходе различн рода социологич мониторингов – общенациональн и региональных.

Наиб широкое распр-е КА получил в т. массовой коммуникации, политологии и социологии. Этим отчасти объясняется тот факт, что иногда этот термин исп-ся как обобщающий для всех м-дов систематич. и претендующего на объективность анализа политич т-тов и т-тов, циркулирующих в каналах массовой коммуникации. Однако такое расширительное понимание КА неправомерно, поскольку сущ-т ряд исслед м-дов – либо специально разработанных для анализа политич т-тов (напр, м-д когнитивного картирования), либо применимых и применяемых для этой цели (напр, м-д семантич дифференциала или различн подходы, предполаг-щие изучение стр-ры т-та и механизмов его возд-я), – кот не м б сведены к стандартному КА даже при максимально широком его понимании.

Тем не менее КА действит-но занимает среди аналитич м-дов особое место в силу того, что явл-ся среди них самым технологичным и в силу этого в наиб степени подходящим для систематич мониторинга больших инфо потоков. Помимо этого, КА достаточно гибок для того, чтобы в его рамки мог быть успешно «вписан» весьма разнообразный круг конкр типов исслед-й. Наконец, будучи в основе своей количеств м-дом (хотя и содержащим немалую качеств составляющую), КА в опр степени поддается формализации и компьютеризации.

Основа КА – это подсчет встречаемости нек компонентов в анализируемом инфо массиве, дополняемый выявлением статистич взаимосвязей и анализом структурн связей м/у ними, а также снабжением их теми/иными количеств/качеств характерис-ми.

Колич КА в первую очередь интересуется частотой появления в т-те опр хар-тик (переменных) содержания. Качеств КА позв-т делать выводы даже на основе единственного присутствия или отсутствия опр хар-ки содержания.

Различие двух подходов довольно легко проиллюстрировать примерами. В 50-е годы западные аналитики на основе колич анализа статей газеты "Правда" обнаружили резкое снижение числа ссылок на Сталина. Отсюда они сделали закономерный вывод, что последователи Сталина стремятся дистанцироваться от него. С др стороны, качеств аналитик мог бы сделать аналогичный вывод на основе единственного факта, что в публичной речи одного из партийных функционеров, посвященной победе СССР в ВОВ, Сталин вообще не б упомянут. Прежде такое было бы немыслимо.

Очевидно, что колич КА легче поддается реализации в комп программах. Именно по этой причине в дальнейшем мы будем вести речь исключительно о м-дах колич КА.

Следует обратить внимание на то, что когда говорят о КА т-тов, то гл интерес всегда закл-ся не в самих характ-ках содержания, а во внеяз реальности, кот за ними стоит – личн характ-ках автора т-та, преследуемых им целях, характ-ках адресата т-та, различн событиях обществ жизни и пр.

Также может проводится анализ по категориям. В кач-ве категории м выступать набор слов, объединенных по опр основанию. М сказать, что посредством категорий в КА предст-ны опр концептуальные образования. Так в случае с посланиями Б.Клинтона была образована категория «экономика», в кот входили слова - экономика, безработица, инфляция. В категорию «семья» входили слова - ребенок, семья, родители, мать, отец. Именно учет частот встречаемости категорий, а не отд слов, позв-т судить о внимании, уделенном в послании тем/ иным вопросам.

Очевидно, что от качества составления таких категорий во многом зависит качество результатов анализа. КА т-тов с исп-ем категорий наз-т концептуальным анализом. Сфера его применения довольно широка. 2 осн типа задач, решаемых с его пом:

  1. Есть два или более т-тов, кот необх-о сравнить в отн-ии нагрузки на опр категории. Напр, задача выяснить, какое внимание уделяют 2 разн газеты опр темам. Если эти газеты рассчитаны на одну аудиторию, то существенное различие в частотах позволит судить о различиях в политике, проводимой людьми, стоящими за ними.

  2. Задача отслеживания динамики изменения нагрузки на опр категории. Напр, выяснить частоту упоминания темы внешнего долга России в фиксированном наборе центр газет на протяжении какого-то времени и соотнести ее с колебаниями курса доллара путем простого корреляционного анализа.

Иногда требуется сделать вывод на основе анализа 1 т-та. Напр, имеется т-т выступления депутата Думы и требуется оценить, насколько оно агрессивно. Прежде всего для решения этой задачи должна быть составлена категория агрессивно окрашенной лексики. После этого мы можем сравнить т-т выступления нашего депутата с выступлениями др и сказать, кто из них агрессивнее. Для оценки степени агрессивности выступления потребуется нек норма, своеобразная нулевая отметка агрессивности. Мы получим ее, если выясним относит частоту употребления агрессивно окрашенных слов средним носителем рус яз. Помощь в этом могут оказать частотные словари. Сравнивая относительную частоту употр-я агрессивно окрашенной лексики в выступлении депутата с частотой ее употр-я средним носителем рус яз мы как раз и можем сделать вывод о степени агрессивности. Небольшие отклонения частот в бол/мен сторону м б следствием случайных колебаний. На вопрос о значимости отклонения частот позволяет ответить статистическая оценка, известная под названием z-score и вычисляемая по формуле (N-E)/(стандартное отклонение), где N - количество слов данной категории, реально встретившихся в тексте, а E - ожидаемое число вхождений слов данной категории в текст. Величина E вычисляется путем умножения нормальной частоты категории на число слов в анализируемом тексте.

К середине 50-х годов исследователи стали все больше уделять внимания не простому наличию/отсутствию категорий в т-те, а связям м/у категориями. Для этого обращают внимание на совместную встречаемость (cooccurence) слов разл категорий. Например, для каждого предл-я т-та мы м выяснить, слова каких категорий в нем встречаются. После этого легко подсчитать обычн коэффициент корреляции, который даст нам силу связи между категориями и знак этой связи. Может оказаться, что для нек категорий наблюдается тенденция их совместного употр-я, а для других - наоборот. В нек случаях это м б отражением сознательной позиции автора статьи, а в нек - связью на уровне подсознания.

Ценность м-да анализа т-тов очевидна, т.к. позв-т на основе формал м-дов извлекать из массивов текстов содержат инфу. М-д нахождения контекстов употр-я слов (collocations) допускает дальнейшее развитие. Выбрав предложения, в кот встречается конкр слово или категория, мы получили нек подвыборку т-та, к кот в свою очередь применимы все м-ды КА. Т.е. контексты употр-я слов и категорий в свою очередь м б подвергнуты КА - выяснению простых частот категорий, относит частот, оценок категорий относительно нормы и т.д.

Если выразиться образно, то контекстный анализ позволяет выделить в тексте несколько тематических нитей и анализировать их отдельно.

Очевиден огромный потенциал контекстного анализа при мониторинге больших объемов информации, так как он позволяет полностью автоматизировать весь процесс сбора инфы.

Исп-е при КА опр набора категорий задает концептуальную сетку, в терминах кот анализир-ся т-т. От того, насколько удачен набор исп-х категорий, зависит кач-во результатов анализа. Поэтому исследователей давно интересовала задача автоматической категоризации слов т-та, т.е. выделение обсуждаемых в нем тем.

Б предложены ряд подходов для решения этой задачи. Следует отметить, что автоматическая категоризация возможна лишь в том случае, если объем анализируемых текстов достаточно велик.

Этапы контент-анализа и интерпретация результатов

1 этапе - кроме опр-я темы т-та (с пом модуля "автоматич категоризация") следует опр-ть её действ-щих лиц и их отн-е к теме. Возможны след варианты опр-ия действ-щих лиц: по критерию "Центр внимания" с категориями "Я"-"Ты-Вы"-"Он-Она-Оно" и оценочная категория "Свой-Чужой". Т.е. действ-щим лицом т-та м явл-ся "Я" (автора или того, от лица кот ведется текст), "Ты-Вы" (чаще тексты, имеющие целью мотивировать адресата сообщения на к-л д-я или дающие оценку таким д-ям) и "Он-Она-Оно" (чаще описат т-ты о деят-ти третьих лиц по отн-ю к автору и адресату). Т.о., будут выделены действ-щие лица и оценка их деят-ти в рамках темы.

2 этап - определяется выраженность "потребности" в тексте и связь категории с темой текста и действующими лицами. Следует различать "внутр" и "внеш" потребность, т.е. формул-е побуждений как принадлежность непосредственно действующим лицам (собственно "хотеть") или побуждения как результат чужих желаний или обязательств перед другими лицами ("долг", "обязательство").

3 этап – опр-ся стр-ра "валентности" и её связь с темой. При выраженной связи с "положит" валентностью тема текста считается реализуемой (достижимой), при выраженной "отриц" валентности м говорить о фрустрирующем значении темы для действующих лиц.

4 этап – опр-ся стр-ра мотивов и инструмент деят-ти, связанной с темой. В стр-ре мотивов выдел-ся физиологические мотивы, мотивы достижения, власти и аффиляции, а инструментальная деятельность подразделяется на группу 'физических действий', включающая "манипуляцию", "движение" и "перемещение".

Физические действия происходят в определенном образе организованном "пространстве" (манипуляция) и имеют определенное "направление" (движение и перемещение) и временную привязку и протяженность.

Категории времени включают следующие категории: "До", "После", "Определенное время" и "Неопределенное время".

К инструментальной деятельности также относятся категории 'информационных действий', включающих категории "восприятие", "обработка", "трансляция" и "ретрансляцию".

Группа категорий 'информационных действий' тесно связана с категориями репрезентативных систем (каналов восприятия): "чувственный канал", "зрительный канал" и "слуховой канал" и "рациональный канал". Совр яз имеют, как правило, слова, описывающие восприятие, обработку, трансляцию и ретрансляцию в различных репрезентативных системах (каналах восприятия), что дает доп возм-ти для решения практических задач

5 этап – вкл-т поиск и оценку связей темы и действующих лиц с различными категориями ментальных операций, в том числе:

Операции с "Информацией": наличие "констатации" и "уточнения", исп-я слов "конкр"/"неконк" инфы; выраженность "преувеличения", "преуменьшения" или "отрицания".

Логические операции: "и", "или", "нет", "но".

Операции сравнения: "общность", "отличие" , "подобие" .

Организация событий: "причина", "следствие" и "нарушение".

Исп-е тех/иных ментальных операций явл-ся операциями мышления и/или риторическими приемами.

6 этап – опр-ся эмоциональные оценки темы и действующих лиц.

Оканчивается процедура КА опр-ем выраженности всех категорий во всем тексте. Интерпретация результатов контент-анализа выполняет следующую основную задачу:

Описание "ментальной карты" текста в целом, "карт" тем и действующих лиц, т.е. выявление наиб значимых "семантических примитивов" (категорий), кот б исп-ны для описания.

Обработка, презентация и интерпретация результатов. Кодирование данных при КА обычно осущ-ся с пом достаточно простых анкет или комп программ, в кот фиксир-ся каждое появл-е в анализируемом тексте искомой ед-цы. Эта элемент схема м б усложнена многими разн сп-бами. Прежде всего, наборы ед-ц с сопоставленными им количеств оценками, как правило, сопоставляются с другими количеств оценками тех же ед-ц. Это м б, напр, рез-ты подсчета частотности упоминания одних и тех же тем для разл выпусков одного и того же печатного издания или одной и той же регулярно выходящей в эфир новостной программы (временные ряды); рез-ты аналогичного подсчета для разл изданий/программ или, скажем, обобщенных категорий изданий. Очевидно, что такие данные могут быть предст-ны с пом разнообразных графич ср-тв – диаграмм, графиков и т.д., обеспечивающих наглядность.

Классификации зачастую бывают многомерными, и для представления это также могут использоваться различные форм средства. На практике рез-ты КА чаще всего предст-ся рядами диаграмм, столбчатых или круговых, хотя понятно, что в распоряжении КА имеется все разнообразие средств предст-я колич данных. А также и качеств-х: для отображения отн-ий м/у ед-цами КА и рез-тов их категоризации исп-ся такие стандартные ср-ва отображения стр-р, как различные графы.

Квантификация данных, естественно, создает необх предпосылки для применения к ним ср-в математич анализа. Помимо анализа частотного распределения, к ним относится анализ различного рода корреляций между переменными, ассоциаций, анализ сопряженности, кластерный анализ. Разумеется, весь этот инструментарий должен применяться корректно. Если при опр-и ед-ц КА и идентификации их в т-те добиться полной объективности возм-но лишь в нек случаях, то при экспликации и обработке данных обеспечить следование строгим стандартам вполне возможно.

Содержат-я интерпретация рез-тов зависит от целей анализа; она явл-ся прежде всего творческим актом, рез-ты кот во многом предопределены политологической квалификацией и интуицией аналитиков.

В ходе КА-тич-го исслед-я как для анализа т-та, так и для последующей обработки его рез-тов м исп-ся вычислит техника. После квантификации, т.е. перевода данных в числовую форму, их математич и, в частности, статистич обработка м осущ-ся разн программными средствами, в том числе стандартными статистич пакетами типа SPSS. При анализе т-та и последующем сохр рез-тов этого анализа в БД м исп-ся спец программы, предназначенные для целей лингвистич исслед-й. В частности, анализ метафорики в рус политич т-тах велся с пом разработанной в Институте рус яз РАН программы Dialex, способной осущ-ть состав-ие частотных словарей и конкордансов, а также поиск лексич ед-ц с их контекстами и сохр-ть его рез-ты в БД; в наст время завершается работа над более совершенной сис-мой, предназначенной для решения тех же задач. Имеется ряд заруб КА-тич-х комп сис-м, а также сис-м, потенциально применимых для целей КА – такова, в частности, система KEDS, разработанная Ф.Шродтом в Канзасском университете и исп-мая для анализа потока политич событий, отображаемых на ленте информационного агентства «Рейтер».

9Технология гипертекста и ее использ-е в информационных системах

Термин «гипертекст» б. введен Тедом Нельсоном в 1965г. для опис-я док-тов, кот. выраж-ют нелинейную стр-ру идей. Однако сама идея г-та связ-ся с Ванневаром Бушем (1945), кот. теоритически обосновал проект технич. сис-мы “Memex”, кот. позволяла связывать т-ты и их фрагменты по ассоциативным отн-ям. Но из-за отсут-я компов проект оказался оч. сложным для технич. воплощения. Проект воплотился в сис-ме «Ксанаду» Т. Нельсона, кот. уже предполагала исп-е компов.

С 1ой стор., г-т – это особая форма предст-я текстового мат-ла, его нелинейная организ-я. С др. стор., г-т – это нов. СП-б, инструмент, инф. технология, кот. делает возможным предст-е и освоение big объемов текст. мат-ла в нелинейной форме.

Технологические св-ва г-та:

  • разнородность (гипермедия, т.е не т-ко т-т, но и звук и графика и видео)

  • нелинейность (нет стандартной посл-ти чтения)

Компоненты г-та:

Структурно г-т предст. соб. граф, в узлах кот. нах-ся традиционные т-ты/их фрагменты, изображения, таблицы, видеоролики. Узлы связ. разнообр. отн-ми, кот. м.б. одно/-двунаправленными. Цепочка узлов, ч/з кот. проходит читатель при просмотре компонентов т-та, обр-ет путь (маршрут). Совок-ть смеж. узлов обр-ет окрестность дан узла. Окр-ть узла обр-ют те узлы, в кот. содержится инф-я, близкая по семантике к содерж-ю дан узла. Узлы сети, в кот. входит и выходит много стрелок-отношений, обр-ют центр. часть г-та, а те, кот. почти изолированы от др. узлов – его периферию.

Виды г-та:

I. структурно г-т м.б.:

  • иерархическим – древовидным – существенно ограничивает возм-ти перехода м/у его компонентами. Отн-я напоминают стр-ру тезауруса, основанного на родо-видовых cвязях (Gohper).

  • сетевым – позволяет исп-ть разл. типы отн-ий м/у компонентами, ен ограничиваясь отн-ми «род-вид».

II. по возмож-ти прогр. обеспечения

  • простой (напр., электронное оглавление док-та, кот. позволяет перейти к-л части док-та, минуя просмотр всего док-та)

  • сложный – богатая сис-ма переходов м/у компон-ми г-та, в них нет предст-я о базовом т-те, с кот. связаны второстепенные по знач-ти т-ты.

III. по способу существования:

  • статистический (не меняется в процессе эксплуатации)

  • динамический (изменение явл. нормал. формой существования). Обычно функц-ют там, где необх-мо постоянно анализир-ть поток инф-ии, т.е. в инф. службах разного рода

IV. по отношениям м/у элементами

  • г-т жесткой стр-ры - отн-я м/у эл-ми изначально фиксируются создателями

  • г-т мягкой стр-ры – отнош-я порождаются каждый раз, когда происх. обращение польз-ля к г-ту. Технология основывается на семантич. ан-зе близости док-тов/др. источ-ков инф-ии др. к др. В наст. вр. распр-но исп-е технологий мяг. стр-ры на ключевых словах. Переход от 1го узла к др. осущ-ся в рез-те поиска ключ. слов. Т.к. набор ключ. слов каждый раз м. различаться, то кажд. раз меняется и стр-ра г-та.

Чем больше узлов, тем предпочтительнее мягк. стр-ра, т.к. кодировка жестких связей отнимает слишком много вр. Стр-ра Интернет часто функц-ет как г-т мягкой стр-ры.

В архитектуре гиперт-вой сис-мы различается БД и система управления. Сис-ма управл-я г-том вкл-ет 2 инструментальных комплекса. Один исп-ся в кач-ве инструм-та интерактивного управл-я процессами браузинга (просмотр шаг за шагом по направлению к искомой инф-ии), а второй в процессах создания и ведения г-та. Первым броузером, получившим широкую известность стала программа Mosaic, разработтаня Марком Андриссеном в 1993г. В 1994г. на основе это программы б. создан 1 из самых популярных броузеров – Netscape Navigator. Позже – Internet Explorer.

Наиболее популярн. прогр. пакет для создания и ведения г-та сейчас - прогр. пакеты HyperCard компании Apple. Г-т в оболочке HyperCard представляется в виде каталожных карточек. польз-ль с помощью довольно простого интерфейса организует стр-ру карточки - связи м/у ними. Карточки м. содержать разл. виды инф-ии.

Сферы использования г-та

Бизнес и профессиональные коммуникации:

- Интерактивные гипермедиа презентации для маркетинга и сбыта - Бизнес - отчеты - Разработка планов и предложений - Руководства по корпоративной политике и процедурам - Руководства по эксплуатации - Юридическая документация - Медицинская информация

Обучение и научно-исследовательская деятельность(!)

- Учебные пособия - Учебные задания - Справочники, энциклопедии, словари, библиотеки, учебники и т.п.

- Составление рефератов, отчетов

Другие

- Имитация и моделирование - Всемирная паутина (World Wide Web) - Проектирование интерфейсов - Организационное управление

- Искусство и культура

16ИПС: типы, организация поиска, примеры соврем. поиск. сис-м

Автоматизированная ИПС – это функционирующая на основе ЭВМ и др. техн. ср-в комплекс, обеспечивающий сбор, хранение, обновление и обработку иноф-ии в целях поддержки к-л вида деят-ти. Осн. достоинство ИПС закл. в обеспечении хранения больших объемов данных и быстрого поиска нужной инф-ии среди имеющихся данных.

Абонент обращается к ИПС с информационным запросом – т-том, отражающим информационную потребность дан. абонента, напр., его желание найти список аптек, в которых можно купить нужное лекарство. Поиск инф-ии ведется в поисковом массиве, кот. формируется (и по мере необходимости обновляется) разработчиками/ администраторами сис-мы. Эл-ты поискового массива вводятся в ИПС на ЕЯ (или близком к нему), а затем обычно подвергаются индексированию, т.е. переводу на формальный информационно-поисковый язык (ИПЯ).

Индексирование - выражение центральной темы или предмета к.-л. т-та или описание к-л. о-та на ИПЯ.

По характеру поискового массива и выдаваемой инф-ии ИПС подразделяют на документальные и фактографические.

Документальная ИПС предназначена для отыскания док-тов (статей, книг, отчетов, описаний к авторским свидетельствам и патентам), содержащих необходимую инф-ю. Поисковый массив такой ИПС сост. из поисковых образов документов (т.е. т-тов на ИПЯ, поставленных в однозначное соответствие док-ту и отражающих его признаки, необходимые для поиска его по запросу.) или из самих док-тов. В ответ на предъявляемый инф. запрос ИПС выдает некот. мн-во док-тов (или адреса их хранения), содержащих искомую инф-ю.

Фактографическая ИПС обеспечивает выдачу непосредственно фактических сведений, затребованных потребителем в инф. запросе. Поисковый массив сост. из фактографических записей, т.е. из описаний фактов, извлеченных из документов и представленных на некот. формальном яз.

Сущ-ют и смешанные ИПС, содерж., как док-ты, так и факты.

В наст. вр. фактографические ИПС (как специальный класс поисковых систем) практически не разрабатываются, выполняемые ими действия реализуются с помощью штатных СУБД.

Наиболее популяр. моделью организации поискового образа док-та явл. «векторная модель» - каждому док-ту приписывается список терминов, наиболее адекватно, отражающих его смысл т.е док-ту приписывается «вектор» = числу терминов. При булевой векторной модели эл-т вектора =1 или 0 в зав-ти от наличия/отсутствия термина в док-те.

В более сложных моделях термины «взвешиваются», т.е. «вес термина» - соотв-е дан. термина док-ту

Присвоение док-ту набора ключ. слов или кодов, определяющих его содержание. наз индексированием. Длля пополнения списка ключ. слов служит робот-индексировщик, кот. просматривает сеть, находит нов. инф. рес-сы, приписывает им термины и помещает в БД индекса. Индекс в б-ве сис-м – сис-ма связ. /у со. файлов, кот. нацелена на быстрый поиск данных по запросу. Возможны 2 способа индексир-я: свободное, когда непоср-но из т-та док-та извлекаются ключ. слова без учета всех их словоформ и отношений м/у ними; и контролируемое, когда в поисковый образ док-та вкл-ся только те слова, кот. зафиксированы в информационно-поисковом тезаурусе, где указаны их синонимические, морфологические и ассоциативные отношения.

Тезаурус - специально организованный нормативный словарь лекс. ед-ц ИПЯ и ЕЯ. Лекс. ед.ми ИПЯ явл. дескрипторы. Дескриптор ставится в однозначное соответствие группе ключ. слов ЕЯ, отобранных из т-та опр. предмет. обл-ти. Напр., в кач-ве дескриптора м. б. выбрано любое (предпочтительно наиболее часто используемое или короткое) ключ. слово/ словосоч-е / же цифровой код. Многозначному слову ЕЯ соответствует несколько дескрипторов, а нескольким синонимичным словам и выражениям - 1 дескриптор. Тезаурус учитывает семантич. связи м/у словами: антонимы, синонимы, гипонимы, гиперонимы, ассоциации. Тезаурус и грамматика составляют ИПЯ. Грамматика содержит правила образования производных ед-ц яз. (семантических кодов, синтагм, предложений) и регламентирует использование ср-в обозначения синтаксических отношений (напр., указателей связи).

В рассмотренной выше сказочной информационной службе знакомств тезаурус должен описывать всевозможные кач-ва и хар-ки, встречающиеся в письмах клиентов, правила их классификации. Грамматика и тезаурус д. б. составлены т.о., чтобы сис-ма м. понимать, что задает, скажем, число, указанное в запросе: рост, возраст или количество зубов (это м. опр-ся по ключ. слову - единице измерения), уметь отличить сведения, сообщаемые клиентом о себе, от его требований к партнеру (здесь помогут словосочетания хотел бы познакомиться, должен соответствовать).

На основании тезауруса и правил грамматики формируются поисковые образы док-та и запроса (поисковое предписание). Поисковое предписание – т-т на ИПЯ, содержащий признаки док-тов, затребованных польз-лем в запросе. Релевантность

Целью ИПС является выдача док-тов, релевантных (семантически соответствующих) запросу. Различают рел-ть содержательную и формальную. Рел-ть содержательная трактуется как соответствие док-та информ. запросу, определяемое неформальным путем (Василиса Премудрая сама прочитает письма всех добрых молодцев и выберет кандидатов в женихи, отвечающих ее требованиям), а рел-ть формальная - как соответствие, определяемое алгоритмически путем сравнения поискового предписания и поискового образа документа на основании применяемого в ИПС критерия выдачи.

Критерий выдачи - формальное правило, совокупность признаков, по кот. определяется степень формальной рел-ти поискового образа док-та и поискового предписания и принимается решение о выдаче/невыдаче некот. док-та в ответ на инф. запрос.

Недостатки:

При поиске сущ. 2 проблемы: нерелевантность поиска (информац. шум) и неполнота поиска. Причиной инф. шума м.б. неправильное ключ. слово, многозначность слова, нечеткое формулирование комм. цели поиска. Неполнота поиска: сис-ма не м. найти нужную инф-ю, хотя она и имеется в БД. Одна из причин этого недостатка – синонимия.

Компоненты ИПСclientпрограмма просмотра конкр. информ. рес-са (напр.,Netscape Navigator) обеспеч.просмотр док-тов WWW, Gopher user interface – интерфейс польз-ля, сп-б общения польз-ля с поиск. аппаратом сис-мы, т.е. с сис-мой формулировки запросов – просмотра рез-тов search engine – поисковая машина транслирует запрос польз-ля в формальн. запрос сис-мы, ищет ссылки на инф. рес-сы сети и выдает рез-ты польз-лю index database – индекс – осн. массив данных ИПС. Ищет адреса инф. рес-сов. Устроен чтобы поиск происходил max быстро и при этом м. б. бы оценить ценность рес-са. queries – запроса польз-ля, кот. сохр. в его личной БД index robot – робот-индексировщик служит для сканиров-я Интернет и поддержики индекса в актуальном сост-ии. Это осн. источ-к инф-ии о состоянии инф. рес-сов. WWW sites – инф. рес-сы сети.Примеры ИПС AltaVista: наиболее продвинутый яз. запроса. Кроме AND, OR, NOT есть NEAR – контекстный поиск. В запросе м. указать в какой части док-та польз-ль хочет видеть ключ. слово (в ссылке, заголовке…). Разрешает поис по ключ. фразам, имеет больш. сл-рь этих фраз. Это сис-ма с расширенным булевым поиском. Yahoo – ИПЯ прост – слова вводят ч/з пробел и они соед-ся AND, OR. Не выдается степень соотв-я док-та запросу, а т-ко подчеркиваются слова из запроса, кот. встретились в док-те. Не производит нормализации т-та. Она относ-ся к классу наиболее прстых традиц. сис-м с огранич. воз-ми поиска. Lycos – в простом запросе ввод. прдл-е на ЕЯ, сис-ма нормализует запрос. Почти сразу выдается инф-я о чиле док-тов, а потом - ссылки. указ. мера близости к запросу, число слов из запроса, кот. попали в док-т. В расшир поиске – булевый поиск. Wais – строит булевые запросы, считает формальн. релевант-ть по разл. мерам близости, взвешивает термины, корректирует запросы по релев-ти, усекает термины, разбивает док-ты на поля.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]