Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
informacionnye_tehnologii.doc
Скачиваний:
13
Добавлен:
08.06.2015
Размер:
1.68 Mб
Скачать

6 Типов технологий создания виртуальных миров:

- система типа «окно в мир» (для созерцания, напр. других стран)

- система видеоналожения (используется в телевидении)

- система полного погружения

- системы дистанционного присутствия (непилотируемые космические станции, микрохирургия глаза и тд.)

- виртуальная реальность второго лица (различные тренажёры)

- смешанная реальность (используются несколько вышеперечисленных пунктов)

Возможности систем виртуальной реальности:

- моделировать макромир и микромир

- навигация в системе виртуальной реальности

- звуковые сигналы/звук

- тактильные ощущения

- запах

Различают системы индивидуального и коллективного пользования.

Разновидности систем виртуальной реальности:

- различные тренажёры (авиационные тренажеры, тренажеры для водителей локомотивов, космонавтов)

- центры принятия стратегических решений (используются в области обороны, планирования военных операций, антитеррористической деятельности, борьбе со стихийными действиями)

- образовательная система виртуальной реальности (цифровая галактика, древний Египет, античный мир, и тд.)

- виртуальные инженерные системы (для испытания самолетов, виртуальная сборка)

- виртуальные системы в различных областях науки (медицина, онкология, заикание и тд.)

КОМПЬЮТЕРНЫЕ СЕТИ

1. ПОНЯТИЕ О КОМПЬЮТЕРНОЙ СЕТИ. КОМПОНЕНТЫ СЕТИ. КЛАССИФИКАЦИЯ СЕТИ ПО ТЕРРИТОРИАЛЬНОМУ ПРИЗНАКУ

2. РЕСУРСЫ СЕТИ ИНТЕРНЕТ

Компьютерная сеть – объединение нескольких компьютеров таким образом, что они могут взаимодействовать друг с другом с целью совместного использования информации.

Компоненты компьютерной сети:

- аппаратный компонент (сами компьютеры, периферийные устройства, средства электронной связи, коммуникационное оборудование) – сюда относят концентратор (повторитель – тк. передаются данные всем компьютерам сети) устройства, которое передает и принимает данные по сети между компьютерами. Вместо концентратора может быть коммутатор – анализирует адрес компьютера-получателя и передает информацию только ему + маршрутизатор – соединяет несколько сетей

- программные компоненты (сетевая операционная система (управляет всеми компьютерами и периферийными устройствами в сети и обеспечивает доступ к данным), сетевой протокол, сетевые приложения (системы управления базами данных СУБД, программы управления сетями, программы анализа работы в сети. Средства сетевой защиты))

Классификация по территориальному признаку:

- локальные сети (совокупность компьютеров и других средств вычислительной техники, объединённых с помощью высокоскоростных кабелей и сетевых карт, работают под настольной или сетевой ОС)

- региональные сети

Возможности локальной сети:

- совместное использование файлов данных и прикладных программ

- обмен информацией

- совместно использование периферийных устройств

Каналы связи локальной сети:

- проводные (коаксиальный кабель, кабель «витая пара», оптоволоконный кабель, линии электропитания по определенному стандарту)

- беспроводные (ИК-излучение, лазерное излучение, Bluetooth-?, радиосвязь)

Устройства для подключения:

- сетевая карта

- концентратор/коммутатор

- радиомодем

В локальной сети используют 2 конфигурации:

- локальная сеть без мощных компьютеров и серверов – одноранговая сеть (клиент-клиент)

- с одним или несколькими серверами (клиент-сервер)

Протокол работы в локальной сети: Ether Net, Fast Ether Net, Gigabit. Различаются скоростью передачи данных.

16.11.09

Региональные сети – сети для обслуживания некоторого региона, занимает промежуточное положение между локальными и глобальными сетями, предназначены для связи локальных сетей в масштабе региона и соединения с интернетом.

Основные функции региональных сетей:

- поддержка ежедневных функций организации

- доступ сотрудников к архивам баз данных

- коллективная работа сотрудников

- доступ к сети интернет

Основная услуга сети – клиент-сервер.

Типы серверов:

- файловый сервер (обеспечивает доступ к файлам)

- сервер баз данных

- коммуникационный сервер

- почтовый сервер

- серверы-чаты

ЛИНИИ СВЯЗИ

- Выделенные линии связи

- Оптоволоконные каналы связи – самые надёжные

- Телевизионные (кабельные) каналы связи

- Спутниковая связь

Существует понятие «экстрасеть» -- та, которая расширяется за счёт включения в неё сетей других регионов и корпораций.

Виртуальная сеть – временно создаваемая сеть на территории региона для выполнения совместного проекта.

Сеть интернет – сеть, использующая высокоскоростные каналы связи для объединения компьютеров, находящихся на значительном расстоянии друг от друга.

Основные функции сети интернет:

- создание глобальной системы коммуникационных средств, и средств передачи данных

- создание мирового информационного пространства

- создание среды для творческого самовыражения человека

- ведение совместных проектов

- реклама

- совершенствование профессиональной подготовки

- самообучение

В 1958г при министерстве обороны США было создано НАСО и АРПА (NASA и ARPA).

В 1969г – 4 компьютера были соединены в сеть ARPANET.

В 1971г – 14 компьютеров объединены в сеть.

В 1972г – 37 компьютеров.

В 1982г – созданы протоколы работы в сети TCP (Transfer Control Protocol) и IP (Internet Protocol).

В 1983г – сеть ARPANET разбивается на2 сети: MILNET и SCINET – военная и научная сети.

HOST – любой компьютер, подключенный к интернет, получающий и отправляющий информацию.

Первое подключение Беларуси в – 1989г через UNIBEL.

Линии связи:

- телефонные

Трафик – объём потока данных.

- оптическое волокно

- радиосвязь (правоохранительные органы, Центробанк и т.д.)

- спутниковая связь

- интегрированные сети

Обязательное условие работы в сети – наличие IP адреса (32-разрядное двоичное число, цепочка символов нолей и единиц, которое однозначно определяет положение компьютера в сети). Была изобретена доменная система имен – поверх IP-адреса записываются доменные имена. Имя домена – цепочка буквенных символов, аббревиатуры, полные слова, которые определяют компьютер в сети.

MSLUUNIBEL.BY

Набор информации до последней точки – домен верхнего уровня. (Различают 2 типа домна верхнего уровня: территориальные домены и указывающие на организацию)

Для нахождении ресурса сети используется URL-адрес.:

протокол://доменное имя/файл

http://Microsoft.com/13

ОСНОВНЫЕ РЕСУРСЫ СЕТИ ИНТЕРНЕТ

Чтобы воспользоваться ресурсами сети интернет:

- выход в сеть интернет

- специальная программа (программа-клиент)

- сервер сети

- источники информации

Средства обмена информации:

- электронная почта

- интерактивные услуги

Технология WWW была придумана в 1989г. Было предложено объединить всю информацию на основе понятия кибер-медиа – нелинейный непоследовательный текст, метод представления текста, изображения, звука, видео, связанных друг с другом произвольной ассоциативной связью.

Кибертекстовый документ расположен на веб-странице. Веб-страница – документ, созданный по технологии WWW, который содержит форматированный текст, мультимедийные объекты, ссылки на другие страницы,. А также некоторые спецпрограммы для выполнение определённых действий. Веб-страницы объединены в веб-сайт (веб-узел) – группа веб-страниц, связанных вместе единой темой, общим стилем оформления и взаимными гипертекстовыми ссылками. 1 страница – главная.

Веб-канал – способен автоматически обновлять и передавать обновленную информацию.

Веб-портал (информационный портал) – сайт для очень широкой или очень узкой аудитории (мегапорталы – сайты СМИ; и тематические/вертикальные – сайт туристического агентства).

Для обращения в сети используются клиентские программы – браузеры. Впервые браузер появился в 1994г.

Основные возможности браузера6

- загрузка страниц по определенному веб-адресу

- перемещение по гипер-ссылкам

- ускорение процесса загрузки

- сохранение страниц целиком

- …

Существует 2 вида подключения к сети

- оффлайн (доступ по электронной почте, деловая переписка, подписка, и тд)

- онлайн доступ

- сеансовое подключение

- постоянное подключение по выделенной линии

23.11.2009

Все поисковые системы подразделяются условно на 3 группы:

- поисковики-справочники (тематические каталоги интернет) – аналог тематического указателя в библиотеке Yahoo

- поисковые системы общего назначения (индексные поисковые системы) – поиск документов осуществляется по ключевым словам и словосочетаниями Google

- специализированные поисковые системы (поиски информации в разных слоях интернет) Lycos

FTP-архивы – поиск информации осуществляется по протоколу FTP.

FTP:// FTP.microsoft.com

Это основное средство доступа к файлам. FTP-архивы включают:

- каталоги библиотек

- публикации учебных заведений

- архивы крупных организаций

FTP-архивы имеют уровни доступа.

Возможности FTP-архивов:

- подключение к FTP-серверу по адресу

- регистрация на сервере по имени и паролю

- перемещение и просмотр файловой системы

- копирование файлов с FTP-сервера на локальный компьютер

Значительная часть информационных источников доступна через всемирную паутину, однако бывает необходимо подключится к компьютерам, включенных в сеть интернет в режиме удаленного терминала. Становится возможным выполнять на удаленной машине редактирование файлов, копирование, выполнение прикладных программ, а также системное администрирование. (Telnet – протокол для такой работы)

Источником информации могут быть информационно-справочные системы. Особенность информационно-справочных систем – доступ к структурированной информации. Инф-спр системы обеспечивают:

- доступ к архивам учебных заведений

- работу с видео, графикой, анимацией

- доступ к каталогам библиотек

Средства обмена информацией. Эл. Почта

Электронная почта – использование компьютерной сети для отправки и получения почтовых сообщений. Появилось в конце 70х – начале 80х гг. основные функции электронной почты:

1 доставка корреспонденции (до 90х годов – только текстовая информация, MIME – протокол для передачи разной информации)

2 распространение периодических изданий с помощью списка рассылки (списки пользователей, которые получают копии почтовых сообщений, общий электронный адрес для круга пользователей)

Особенности списков рассылки:

- все сообщения хранятся, пока не будут прочитаны пользователем

- списки рассылки управляемы через системного администратора и функционируют в рамках списков рассылка

Функции списков рассылки (ML):

- распространение через них подписных изданий

- создание списков рассылки для рекламных целей

- коллективная работа пользователей

3 сетевые новости. Появилось в конце 70х годов. Все новости разделены на 7 больших тематических групп, каждая группа делится на подгруппы.

4 организация делопроизводства. Е-меил в делопроизводстве обеспечивает:

- отказ от бумажного документооборота

- отказ от второстепенного персонала

- более срочное распространение информации

- поучаемые по почте сообщения могут быть вставлены в другие документы

Структура сообщения:

- шапка, заголовок

- основная часть письма, письмо

- подпись

Сетевой этикет:

- не рассылать рекламный и системный мусор

- не скандалить (не рассылать большое количество небольших файлов)

- разумно использовать пропускную способность сети (большие файлы нужно архивировать)

- не кричать (не набирать текст большими буквами)

- обязательно указывать тему)

- для связи с международными организациями – указывать атрибуты важности

- не использовать большое количество смайликов (эмоциональных пиктограмм)

Подпись:

- цифровое удостоверение (графический файл с подписью, личный ключ, который выдаётся центром авторизации)

Почтовый пакет – прикладная программа, управляет отсылкой и приёмом почтовых сообщений. Состав:

- почтовая программа, программа-клиент -- The Bat

- программы почтового сервера

- транспортная программа

- сервер списков рассылки

- программа-фильтр для определения размера прикреплённых файлов

Типы e-mail:

- почта на базе протокола РОР

- на основе программы просмотра (веб-браузера)

- перенаправленная почта (или форвардинг)

- голосовая почта

- гибридная почта

Кроме электронной почты средствами обмена информации являются:

- беседы в сети

- аудио- видеоконференции

- услуги, поддерживающие игры в сети в реальном режиме времени

- телефония (разговоры через компьютер)

Тенденция развития интернет

- рост аудитории интернет (19% населения)

- увеличение доменных зон (на сегодняшний день – 146 млн. доменов) – вводится пользование национальных доменов

- увеличение количества интернет-сайтов (155 млн. сайтов)

- распространение высокоскоростного доступа в интернет

- увеличение популярности беспроводных технологий интернет доступа (увеличение количества хот-спотов)

- рост интернет трафика

- рост популярности блогов, сетевых журналов и тд.

- возрастание интереса к социальным сетям

- рост популярности фотохостинговых ресурсов

- расширение аудитории онлайнового видео

- создание второго поколения интернет (использование 128-разрядного IP-адреса)

ПРИКЛАДНАЯ ЛИНГВИСТИКА

Вопрос:

- Системы автоматического чтения текста

План ответа:

- принципы распознавания в искусственных системах

- этапы чтения текста

- основные возможности систем автоматического чтения текста

Система автоматического чтения текста (система оптического распознавания символов) – прикладная программа, позволяющая преобразовывать текст с бумажного носителя или слайда в электронный текстовый файл, который далее может обрабатываться другими прикладными программами (программой машинного перевода).

В 60-70е годы ученые из США Патрик Уинстон и Марвин Минский предложили смоделировать принципы распознавания предметов человека на искусственные системы:

- признак целостности (сначала видим картину в общем)

- признак целенаправленности (более детальное рассмотрение)

- принцип адаптивности (способность к самообучению)

Первые система сканирования мультифонтовые, которые требовали обучения начертанию. Последующие системы стали называть интеллектуальными или омнифонтовыми, они не требуют настройки начертание букв.

Примеры: Fine reader (Abby software house – 1977 Moscow), и Cunei Form (Cognitive technology)

Этапы распознавания:

- этап сканирования (получение графического изображения) – при сканировании возникают относительные трудности, если на одной странице 2 и более шрифтов разного стиля и начертания, несколько колонок в тексте, если имеется графическое изображение)

- анализ и распознавание полученного изображения (каждого отдельного символа) – распознавание строится на основе 3 классификаторов (стандартов):

* шаблонный (растровый) – каждое графическое изображение поочередно сравнивается с эталоном в базе данных. Наиболее вероятный знак признается.

* признаковый классификатор – анализируется не все изображение, а некоторые признаки

* структурный классификатор – содержит информацию о правилах начертания символов

Система Fine reader имеет свой собственный 4й классификатор:

* структурно-пятенный классификатор – изображение представлено в виде набора пятен, связанный друг с другом

Система Fine reader имеет несколько версий:

- профессиональная версия

- стандартная версия

- рукописная версия

Основные возможности систем сканирования:

- ввод печатных документов, подготовленных на разных принтерах

- распознавания всех шрифтов

- система способна самообучаться и распознавать нечитабельные абзацы на основе читабельных абзацев

- распознаются тексты на неизвестных языках

- система имеет встроенный текстовый редактор

- программа имеет модуль проверки орфографии для каждого языка

- распознаются таблицы, стандартные формы, ценные бумаги, чертежи, штрихкоды и так далее

- распознаются документы на сложном фоне 9цветная бумага)

- распознавание документов по сети

- распознавание можно проводить в фоновом режиме, одновременно выполняя другие действия

СИСТЕМЫ АВТОМАТИЧЕСКОГО АННОТИРОВАНИЯ И РЕФЕРИРОВАНИЯ ТЕКСТА

Вопросы:

- Реферат и аннотация (общие понятия). Классификация методов аннотирования и реферирования. Статистический метод

- Реферат и аннотация (общие понятия). Классификация методов аннотирования и реферирования. Позиционные и логико-семантические методы

Реферат – текст, который кратко выражает центральную тему первичного документа, цель, применяемые методы и результаты исследования.

Машинный реферат обычно в 2-3 раза меньше самого документа.

Аннотация -- наикратчайшее изложение основного содержания первичного документа. Объем – 150-200 знаков.

Реферат и аннотация – вторичные документы (результат сжатия текста). Составление реферата и аннотации с помощью компьютера называется автоматической компрессией (сжатием информации), автоматическим аннотированием и реферированием, или машинным экстрагированием, а саму аннотацию или реферат – квазианнотоцией или квазирефератом. Работы по автоматическому реферированию и аннотированию ведутся с конца 50х годов прошлого века. Первый машинный реферат сделал Генри Лун в 1958г. Все методы реферирования и аннотирования подразделяются:

- статистический – был предложен впервые Г.Луном. Лун определил, то наиболее значимые предложения, которые войдут в машинный реферат, должны соответствовать двум условиям:

* предложения должны содержать частотные слова-термины

* эти слова-термины должны находиться на небольшом расстоянии друг от друга (основными смысловыми единицами являются ключевые слова (термины, повторяющиеся несколько раз); ключевые словосочетания (содержат 2 или более термина); ключевое предложение (содержит 2 и более ключевых слова или словосочетания).

- позиционный

- логико-семантический

План составления машинной аннотации и реферата:

- составляются частотно-алфавитные словари абзацев

- путём объединения составляются частотно-алфавитные словари текста

- из полученного словаря вычленяется словарь потенциальных опорных слов (отбрасываются служебные слова, объединяются все формы слов)

- из полученного словаря вычленяется словарь ключевых слов на основе математических формул (например, коэффициента важности)

- определяются предложения, содержащие 2 и более ключевых слова

- в аннотацию включают все ключевые слова в порядке их следования после некоторого стандартного клише («В тексте речь идёт о…»)

- в реферат включаются все ключевые предложения в порядке следования

07.12.2009

Основным критерием позиционных методов является место предложения в исходном тексте. Выделяют 2 основных позиционных метода:

- метод «заглавия» -- основное содержание текста выражается лексикой заголовка, словарь ключевых слов составляют на основании лексики заголовка

- метод «локализации» / «местонахождения» -- указывает где в тексте содержатся значимые предложения, для этого предварительно проводится эксперимент, анализируется большое количество текстов некоторой предметной области.

На основе анализа устанавливается, например: 1 предложение 1 абзаца – информация о цели, 2 предложение 3 абзаца – информация о методах, и так далее.

По результатам эксперимента работает программа, которая выбирает в реферат определенные экспериментом предложения. Метод «заглавия» работает на 30-40%,ю метод «локализации – 25-50%. Поэтому данные методы используются совместно и дают результат до 70%.

Логико-семантические методы исследуют структуру и семантику текста. Первый такой метод был создан в начале 70х годов в США. (АДАМ) по данному методу создается словарь индикаторов. В таком словаре каждое слово имеет так называемый семантический код (например: «Благодарный», «Признательный» отмечаются сверхотрицательным кодом, слова-термины отмечаются положительным кодом).

Алгоритм отбора предложений в реферат:

- если в предложении содержится хотя бы одно слово со сверхотрицательным значением – такое предложение не включается в реферат

- если в предложении нет глагола – оно отклоняется

- если в предложении есть слова из заголовка – такое предложение включается в реферат

- если в предложении есть 2 и более слова с положительным весом – такое предложение включается в реферат

К логико-семантическому методу относится метод анализа межфразовых связей. Такой анализ осуществляется на основе 4х критериев:

- межфразовая связь на основе полного совпадения имен существительных в предложениях (Машина отъехала от офиса. Машина подъехала к пункту назначения.)

- на основе повторной номинации через слова. Выражающее соотношение «общее-частное» (Фруктовые деревья требуют ухода. Яблоня тому пример.)

- местоименные замены

- совпадение основ имен существительных

В середине 90х годов появилось новое направление – порождение рефератов. Такое программы как правило имеют 2 компонента:

- диалоговый компонент (диалог с пользователем) – уточняется тема и составляющие реферата

- собственно построение реферата на основе базы данных

Существует 2 варианта создания рефератов «беглого чтения»:

- из текста извлекаются все существительные и определения по порядку следования, в реферат включаются все предложно-именные группы

СИСТЕМЫ МАШИННОГО ПЕРЕВОДА ТЕКСТА (МП)

Вопросы:

1. Способы перевода текста с помощью компьютера

2. Структура системы машинного перевода. Назначение её основных блоков

Официальным началом работ по МП считается 1949г. Общий лингвистический подход был взят из криптографии и предложен американцем Уорреном Уивером.

Специалисты выделяют этапы МП:

- 1949- середина 60х годов

1954г в Джоржтаунском университете был продемонстрирован 1й машинный перевод с русского на английский 9 простых предложений по физике (Джоржтаунский эксперимент)

1955г в Москве в институте математики был продемонстрирован первый машинный перевод с французского на русский. Первые системы машинного перевода были бинарные (с одного языка на другой), алгоритм перевода был жестко привязан к лингвистическому материалу.

- середина 60х- конец 70х годов

Создание целого ряда практических систем МП.

- конец 70х- начало 90х годов

Характеризуется улучшением качества перевода. Все системы стали поддерживать многоуровневый анализ текста, все системы стали многовариантными, появились множественные системы. Правила перевода не были жестко привязаны к лингвистическому материалу.

- начало 90х годов – настоящее время

Характеризуется упорядочением классификации перевода.

На современном этапе выделяют 3 основные стратегии машинного перевода:

- прямой бинарный перевод

- трансформационный перевод (исходный текст в ходе перевода дожжен пройти изменение/трансформацию)

- перевод с помощью языка-посредника

Перевод различается:

- по форме презентации (письменный или устный)

- по цели (практический, учебный, эталонный и экспериментальный)

- по степени автоматизации (интеллектуальный перевод/выполненный человеком; автоматический перевод/выполненный полностью компьютером – для него характерно пред- и постредактирование; автоматизированы перевод: -перевод компьютером с помощью человека (характерно интерредактирование), -перевод человеком с помощью компьютера, -)

Пример системы машинного перевода:

- silod / multis – многоязычная система с основных языков с использованием баз данных морфологии и лексиски

- СОКРАТ – включает профессиональный модуль быстрого перевода

- PROMT – генеральный словарь и специализированные словари

- TRADOS – включает блок ассоциированной памяти, куда заносят параллельные тексты

14.12.2009

СХЕМА СИСТЕМЫ МАШИННОГО ПЕРЕВОДА

1 – подсистема морфологического анализа

2 – подсистема синтаксического анализа

3 – подсистема синтаксического синтеза

4 – подсистема морфологического синтеза

Синтаксические соответствия

1 блок – осуществляет морфологический анализ слов текста. Такой анализ возможен 2мя способами:

- выбор информации для слова из АПС (автоматического переводного словаря) – самый частый способ

- анализ компьютером флексий и определение лексико-грамматических признаков слов – способ требует дополнительной разработки таких признаков

2 блок – определяет синтаксическую структуру предложения, которая может быть выражена двояко:

- может быть представлена в терминах класса слов (а+n…) – наиболее частотный

- синтаксическая структура может быть представлена формальными группами (ИГ именная группа + ГГ глагольная группа…) Информация о классах слов берётся из АПС.

3 блок – подсистема синтаксического синтеза определяет будущую структуру перевода. Такая структура берётся из блока синтаксических соответствий. Блок разрабатывается заранее, где каждой структуре соответствуют переводные структуры (N1 + N2 = 1. a + n

4 блок – предполагает грамматически правильное оформление перевода.

Автоматический переводной словарь:

- словарь словоформ – строится для аналитических языков (тот, в котором мало флексий – английский)

- словарь основ – строится для флективных языков (русского)

ФОТКААААААААААААААААААААААААААА

СИСТЕМЫ РАСПОЗНАВАНИЯ И СИНТЕЗА РЕЧИ

Вопросы:

1. Системы распознавания устной речи

2. Синтез речи

Первые системы распознавания устной речи были созданы во 2й половине 80х годов в Японии. Стимул создания – проблема трансформации непроизносимых согласных. Позже такие системы появились в США среди медиков для надиктовки протоколов исследований. Первые системы имели небольшой объем словаря и назывались «вертикальными». Последующие стали называть «горизонтальными».

1) Via Voice -- Настраиваемая система. Для настройки необходимо произнести 4 фразы. Объем словаря 64 000 единиц. Сейчас фирма IBM проводит проект распознавания с 20 языков. Проект будет завершен в 2010г.

2) Dragon System

3) Kurzweil Voice

Если компьютер смажет распознавать голос, то он:

- будет поддерживать голосовой ввод информации

- обучать родному и изучаемому языкам

- обучать родному языку людей с дефектами речи

- сможет определять человека по голосу

- определять эмоциональное состояние человека

- сможет переводить устную речь на родном языке в письменную на иностранном

- поддерживать обращение голосом к информационно-справочным системам

- поддерживать голосовое управление любыми компьютерными системами

- сможет вести протоколы заседаний

Под распознаванием речи в полном объеме понимается когда распознается беседа или речь с любым человеком. По прогнозам разработчиков искусственного интеллекта такая система будет создана в ближайшие 40-50 лет. Решению этой проблемы решают следующие факторы:

- недостаточность теоретических разработок в области восприятия речевых сигналов

- слитно произнесённая речь обладает следующими свойствами:

+ границы слов в слитной речи размыты

+ соседние звуки влияют друг на друга (эффект коартикуляции)

+ знаменательные слова (существительные, прилагательные…) произносятся отчётливо, а служебные – редуцируются и могут даже исчезать

- в голосе говорящего присутствует экстралингвистическая информация (простуженный голос)

- для речи характерны мимика, жесты (паралингвистические свойства)

Виды систем распознавания:

- система распознавания команд

- система слитной речи:

+ система распознавания дискретной речи (медленная, четкая речь)

+система распознавания естественного речевого потока

Алгоритмы обработки:

- Блок обработки данных (удаляется фоновый шум)

- Блок извлечения особенностей (каждые 10 миллисекунд деление звукового потока на акустические порции)

- Блок акустического совмещения (выделение фонем)

Динамический блок (генерация вероятных слов, словосочетаний)

21.12.2009

Системы распознавания речи

Факторы, влияющие на качество распознавания речи:

- объем словаря (играет большую роль, если распознается естественный поток речи (телефонный разговор – 50% распознавания))

- темп речи (120-140 слов в минуту)

- зависимость от диктора:

- дикторозависимые системы

- настраиваемые системы (большинство сегодняшних систем)

- дикторонезависимые системы

- вычислительные ресурсы компьютера (объем памяти, быстродействие…)

- человеческий фактор (чтобы система работала, она должна либо сравняться, либо превзойти человека) – человек распознает лучше речь, чем отдельно произнесённое слово; человек лучше распознает речь в шумах, ориентируясь в пространстве (феномен застольной беседы); компьютер почти 100% распознает синтезированную речь

- разработка экстралингвистических аспектов распознавания

Выделяют следующие виды невербальной (экстралингвистической) информации:

- эстетическая информация

- эмоциональная информация

- индивидуально-личностная информация

- биосоциальная информация (по полу, возрасту, национальности)

- психологическая информация (самооценка, темперамент)

- медицинская информация (если человек заболел, его голос изменяется)

- пространственная информация

Основные направления качества распознавания:

- увеличение объема словаря за счет увеличения эталонов произнесения

- анализ контекста (коса – прическа, орудие косьбы)

- определение темы текста

На сегодняшний день различают 4 группы систем распознавания речи:

- средства речевого управления

- средство диктовки (работа секретаря)

- информационно-справочные системы

- средство идентификации человека по голосу (голосовые пароли)

СИНТЕЗ РЕЧИ

Первые синтезаторы речи появились в конце 70х годов прошлого века в Японии (объявление остановок в токийском метро).

Сегодня существуют 3 основных метода автоматического синтеза речи:

2 - кодирование в двоичной системе речевых сигналов с их последующим прямым восстановлением (Компьютер служит устройством для записи речи, подобно диктофону, мобильному телефону; слова и фразы записываются в память и в нужный момент воспроизводятся. Качество синтезатора высокая) – например объявление задолженности по телефону

1 - фонетический синтез речи (акустическое моделирование голосового тракта человека) – синтезатор имеет неестественное звучание, говорит голосом робота; речь создается в компьютере из отдельно синтезируемых звуков; компьютер может произнести любое слово – словарь включает фонемы и их варианты (аллофоны); современные системы содержат несколько сотен фонем и аллофонов; компьютер преобразовывает буквы в фонемы и определяет просодические характеристики (фразовые ударения, интонацию)

3 - математическое моделирование голосового тракта человека – словарь создается с участием говорящего человека, но по этой методике в память не записываются слова и фразы, а происходит выделение числовых характеристик звуков, числовые характеристики преобразуются в звуковые сигналы, из которых строится речь

ПОНИМАНИЕ И ПОРОЖДЕНИЕ ПИСЬМЕННОЙ РЕЧИ КОМПЬЮТЕРОМ

Вопросы:

1. Определение понятия «понимание текста компьютером». Уровни автоматического понимания письменного текста

2. Типы автоматического понимания текста

3. Автоматическое порождение письменного текста, определение, этапы, общая структура системы порождения

4. Виды компьютерных систем автоматического порождения письменного текста

Постепенно стиль общения человека с компьютером приобретает черты естественной коммуникации. В настоящее время компьютеры, обрабатывающие письменные тексты, имеют в своей памяти ограниченные некоторой предметной областью данные и некоторые правила их обработки. Такая совокупность информации называется «базой знаний». Понимание в таких системах трактуется как «извлечение из текста наиболее существенной сточки зрения компьютера информации». Полученная в результате понимания информация может быть передана человеку, или может пополнить базу знаний. Под передачей понятого пользователю имеют ввиду способность компьютера «отвечать на его вопросы относительно действующих лиц, фактов, явлений, событий». Ответы представлены в виде текста.

Компьютер понял текст, если он может:

- кратко изложить его содержание (создание аннотации или реферата)

- ответить на вопросы к этому тексту

- на основе текста нарисовать картинку или схему

- приведенные в тексте сведения представить в другой форме (в виде таблицы, например)

- на основе анализа текста, написанного на одном языке, создать текст перевода

- сравнить содержание двух разных текстов и выдать информацию, что в них общего и различного

- путем анализа одного или нескольких разных текстов извлечь информацию, которую можно поместить в базу знаний

Различают следующие уровни автоматического понимания:

- морфологический (морфологическое понимание сводится к автоматическому приписыванию к каждому слову текста его морфологических характеристик (рол, число, падеж) – в последние годы такие операции легко реализуются при создании корпусов текста (совокупность текстов, являющихся достаточными для обеспечения научных выводов о некотором языке, диалекте и тд.)

- синтаксический уровень – суть заключается в автоматическом выделении в каждом предложении текста главных и второстепенных членов предложения и установления между ними различных типов связи

- семантический – в процессе автоматически устанавливаются значения выделенных на синтаксическом уровне составляющих предложения. Компьютер определяет (например) выражено ли подлежащее одушевленным или неодушевленным, сказуемое – глаголом движения или глаголом чувствования и тд.

- гиперсинтаксический (прагматический) – понимание текста связано с выяснением семантических отношений между предложениями текста.

28.12.2009

2. Типы систем автоматического понимания текста

Компьютерная система должна иметь в своей памяти следующую информацию (типы знаний):

- знания о языке, на котором написан текст

- знания об окружающем мире (о предметной направленности – физика, химия…)

- правила использования знаний о языке

- правила использования знаний о предметной области

- знания о пользователе системы (уровень, цель понимания, намерения пользователя)

Нас сегодняшний день различают следующие типы автоматического понимания письменных текстов:

- понимание-узнавание – такая компьютерная система должна иметь только знания о языке (первый тип знаний) – этот тип понимания использовался в первых автоматических системах. Суть такого понимания сводится к тому, что компьютер узнает морфологическую структуру каждого слова. На этой основе компьютер также может определить синтаксические отношения между словами. Боле сложные системы могут проводить синтаксический анализ предложения. По этому принципу работают современные системы аннотирования и реферирования текста.

- понимание-уподобление – компьютер должен иметь знания о языке и правила его использования (первый и третий тип знаний) – при таком понимании компьютер находит в своей памяти готовые ответы на поставленные вопросы, выбирая наиболее вероятный ответ. При таком понимании компьютер как бы уподобляется человеку.

- понимание-прогнозирование – компьютер должен иметь знания о языке, знания о предметной области и знания о правилах использования языка (первый, второй и третий типы знаний) – в этом случае считается, что система понимает текст, если она может определить какой объект или событие предметной области соответствует отдельным фрагментам текста (абзац). Однако, одним и тем же фрагментам текста могут соответствовать разные объекты, поэтому соотносить их можно с определенной вероятностью – прогнозируя.

- понимание-объединение – в базе знаний имеются: знания о языке и правилах его использования; знания о предметной области и правила их использования (1-4 типы знаний) – объединяя все 4 вида знаний, компьютерная система может делать выводы (принимать некоторые решения).

- понимание-объяснение – включает все пять типа знаний. Компьютерная система должна уметь объяснять принятое решение. В таких системах используется диалог «компьютер-пользователь». Проблема автоматического понимания реализуется сегодня в трёх видах компьютерных систем:

- системы автоматического аннотирования, реферирования и перевода текста

- информационные и информационно-поисковые системы

- экспертные системы (такие системы, где компьютер выступает в роли специалиста в какой-то предметной области)

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]