Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Всеволодова-Комп.обработка.doc
Скачиваний:
16
Добавлен:
15.11.2019
Размер:
4.58 Mб
Скачать

2.3.3. Установление авторства

Компьютерная лингвистика находит применение в крими­налистике и при проведении оперативно-розыскных меропри­ятий. Каждый человек имеет свой характерный набор слов, идиом и словесных штампов. Следовательно, в принципе, воз­можно построение марковской матрицы для отдельного челове­ка, уникальной и выделяющей его лексикон, а также характер­ные орфографические и пунктуационные ошибки. Далее, сопо­ставляя полученную при анализе текста матрицу с эталонной, необходимо сделать более или менее достоверный вывод о том, мог испытуемый быть автором данного сообщения или нет. Другими словами, провести экспертизу, аналогичную иденти­фикации отпечатков пальцев. Решение обратной задачи позво­ляет сделать предположение о том, кому из людей, матрицы ко­торых хранятся в банке данных, принадлежит данное сообще­ние, и установить авторство или найти затерявшегося человека.

2.3.4. Построение роботов-поисковиков и снифферов

Самый простой вариант применения статистической линг­вистики — это создание робота-странника, который в режиме

65

5 Заказ 105

автопилота будет лазать по ссылкам в html-документах и искать необходимого человека, анализируя тексты. В усложненном ва­рианте можно построить систему автоматического слежения за сообщениями в html- или irc-чатах. Программа будет нацелена на отслеживание всех переговоров (дифференцируя их по учас­тникам), анализ текстов и поиск заданных объектов. Хакер мо­жет запросто сменить IP-адрес, зайти под другим эккаунтом или ником, но изменить свой лексикон вряд ли догадается. Впрочем, подобная система легко сбивается с толку. В более продвинутых технологиях могут создаваться или сниффер, ана­лизирующий проходящие пакеты, или вирус-шпион, путеше­ствующий по компьютерам и анализирующий тексты для выяв­ления заданного автора сообщений.

2.3.5. Построение роботов-автоответчиков

Имея готовую матрицу рассчитанных марковостей с поряд­ком как минимум выше пятого, можно построить подобие авто­ответчика. Генерируется псевдослучайная последовательность с большим периодом, например, при использовании математи­ческого аппарата конечных полей Галуа. С помощью случайной последовательности матрица марковостей обращается вспять, т.е., используя значение выброшенного последовательностью случайного числа, статистический вес (вероятность появления того или иного символа, взятого из матрицы) и предысторию символа, можно высчитывать следующий символ сообщения. Такое случайное моделирование на выходе выдает осмыслен­ный текст. Уже вполне осмысленный текст получается при об­ращении марковости четвертого порядка. Среднее количество символов в словах русского языка равно восьми, и марковости шестого порядка вполне достаточно для генерации осмыслен­ного текста. Для построения программного робота, способного к диалогу, нужно усложнить анализ введением расчета корреля­ций (или зависимостей, выражаясь обиходным языком). Про­изводится расчет корреляций в зависимости от отклика челове-

ка на задаваемые ему фразы. Или берется литературное произ- ведение, изобилующее диалогами, и рассчитываются корреля­ции в потоках сообщений вопрос — ответ. Программный робот обучается диалогу. Это можно применить для эмуляции присут­ствия в html-чате, ire-цепях или ICQ. Так что следует критичес­ки отнестись к тому, что собеседник выдает осмысленные, но бестолковые ответы: возможно, вы разговариваете с хорошо по­строенным роботом. Чтобы проверить это предположение, можно повторить вопрос, заданный собеседнику. Программа обычно зацикливается и начинает, как попугай, повторять одно

и то же в ответ на один и тот же вопрос.

■ ■ '■ ■

■■■■■.■■ '

.■■■■'

■■'■■■■■'■'■'■ .... .. ; ■..

| ■ . ■' ■ ■■ ■ :

: ' '-.,■>:

' .. . :