- •Isbn 978-5-9765-0098-3 (Флинта) isbn 978-5-02-034597-3 (Наука)
- •1.1.2. Методы воспроизведения и обработки данных
- •1.1.3. Понятие информации
- •1.1.4. Понятие контекстного метода
- •1.2. Данные
- •1.2.2. Операции
- •1.3.2. Классификация прикладных программ
- •1.3.3. Периферийные устройства
- •1.4. Интеллектуальные информационные системы
- •1.4.1. Искусственный интеллект (Artificial Intelligence)
- •1.4.2. Нейронные сети
- •1.4.3. Экспертные системы
- •2. Обзор лингвистических программ
- •2.1.1. Текстовые процессоры
- •2.1.3. Генераторы текстов и «говорящие» программы
- •2.2. Машинный перевод
- •2.2.1. Основные этапы развития машинного перевода
- •2.2.2. Как переводит компьютер
- •2.2.3. Классификация систем
- •2.3. Компьютерная лингвистика: нестандартные применения
- •2.3.1. Определение языка сообщения
- •2.3.2. Взлом шифров
- •2.3.3. Установление авторства
- •2.3.4. Построение роботов-поисковиков и снифферов
- •Заключение
- •Приложение
- •Оглавление
- •1 . Информация. Информационные
- •1.1. Информация 3
- •Информационный обмен, сигналы, данные 3
2.3.3. Установление авторства
Компьютерная лингвистика находит применение в криминалистике и при проведении оперативно-розыскных мероприятий. Каждый человек имеет свой характерный набор слов, идиом и словесных штампов. Следовательно, в принципе, возможно построение марковской матрицы для отдельного человека, уникальной и выделяющей его лексикон, а также характерные орфографические и пунктуационные ошибки. Далее, сопоставляя полученную при анализе текста матрицу с эталонной, необходимо сделать более или менее достоверный вывод о том, мог испытуемый быть автором данного сообщения или нет. Другими словами, провести экспертизу, аналогичную идентификации отпечатков пальцев. Решение обратной задачи позволяет сделать предположение о том, кому из людей, матрицы которых хранятся в банке данных, принадлежит данное сообщение, и установить авторство или найти затерявшегося человека.
2.3.4. Построение роботов-поисковиков и снифферов
Самый простой вариант применения статистической лингвистики — это создание робота-странника, который в режиме
65
5 Заказ 105
автопилота будет лазать по ссылкам в html-документах и искать необходимого человека, анализируя тексты. В усложненном варианте можно построить систему автоматического слежения за сообщениями в html- или irc-чатах. Программа будет нацелена на отслеживание всех переговоров (дифференцируя их по участникам), анализ текстов и поиск заданных объектов. Хакер может запросто сменить IP-адрес, зайти под другим эккаунтом или ником, но изменить свой лексикон вряд ли догадается. Впрочем, подобная система легко сбивается с толку. В более продвинутых технологиях могут создаваться или сниффер, анализирующий проходящие пакеты, или вирус-шпион, путешествующий по компьютерам и анализирующий тексты для выявления заданного автора сообщений.
■ 2.3.5. Построение роботов-автоответчиков
Имея готовую матрицу рассчитанных марковостей с порядком как минимум выше пятого, можно построить подобие автоответчика. Генерируется псевдослучайная последовательность с большим периодом, например, при использовании математического аппарата конечных полей Галуа. С помощью случайной последовательности матрица марковостей обращается вспять, т.е., используя значение выброшенного последовательностью случайного числа, статистический вес (вероятность появления того или иного символа, взятого из матрицы) и предысторию символа, можно высчитывать следующий символ сообщения. Такое случайное моделирование на выходе выдает осмысленный текст. Уже вполне осмысленный текст получается при обращении марковости четвертого порядка. Среднее количество символов в словах русского языка равно восьми, и марковости шестого порядка вполне достаточно для генерации осмысленного текста. Для построения программного робота, способного к диалогу, нужно усложнить анализ введением расчета корреляций (или зависимостей, выражаясь обиходным языком). Производится расчет корреляций в зависимости от отклика челове-
ка на задаваемые ему фразы. Или берется литературное произ- ведение, изобилующее диалогами, и рассчитываются корреляции в потоках сообщений вопрос — ответ. Программный робот обучается диалогу. Это можно применить для эмуляции присутствия в html-чате, ire-цепях или ICQ. Так что следует критически отнестись к тому, что собеседник выдает осмысленные, но бестолковые ответы: возможно, вы разговариваете с хорошо построенным роботом. Чтобы проверить это предположение, можно повторить вопрос, заданный собеседнику. Программа обычно зацикливается и начинает, как попугай, повторять одно
и то же в ответ на один и тот же вопрос.
■ ■ '■ ■
■■■■■.■■ '
.■■■■'
■■'■■■■■'■'■'■ .... .. ; ■..
| ■ . ■' ■ ■■ ■ :
: ' '-.,■>:
■' .. . :