- •Isbn 978-5-9765-0098-3 (Флинта) isbn 978-5-02-034597-3 (Наука)
- •1.1.2. Методы воспроизведения и обработки данных
- •1.1.3. Понятие информации
- •1.1.4. Понятие контекстного метода
- •1.2. Данные
- •1.2.2. Операции
- •1.3.2. Классификация прикладных программ
- •1.3.3. Периферийные устройства
- •1.4. Интеллектуальные информационные системы
- •1.4.1. Искусственный интеллект (Artificial Intelligence)
- •1.4.2. Нейронные сети
- •1.4.3. Экспертные системы
- •2. Обзор лингвистических программ
- •2.1.1. Текстовые процессоры
- •2.1.3. Генераторы текстов и «говорящие» программы
- •2.2. Машинный перевод
- •2.2.1. Основные этапы развития машинного перевода
- •2.2.2. Как переводит компьютер
- •2.2.3. Классификация систем
- •2.3. Компьютерная лингвистика: нестандартные применения
- •2.3.1. Определение языка сообщения
- •2.3.2. Взлом шифров
- •2.3.3. Установление авторства
- •2.3.4. Построение роботов-поисковиков и снифферов
- •Заключение
- •Приложение
- •Оглавление
- •1 . Информация. Информационные
- •1.1. Информация 3
- •Информационный обмен, сигналы, данные 3
1.2. Данные
■
Данные — это зарегистрированные сигналы. В соответствии с методом регистрации данные могут храниться и транспортироваться на носителях различных видов. Самым распространенным носителем данных, хотя и не самым экономичным, по-видимому, является бумага. На бумаге данные регистрируются путем изменения оптических характеристик ее поверхности. Изменение оптических свойств (изменение коэффициента отражения поверхности в определенном диапазоне длин волн) используется также в устройствах, осуществляющих запись лазерным лучом на пластмассовых носителях с отражающим покрытием (CD-ROM). В качестве носителей, использующих изменение магнитных свойств, можно назвать магнитные ленты и диски. Регистрация данных путем изменения химического состава по- верхностных веществ носителя широко используется в фотогра- фии. На биохимическом уровне происходит накопление и передача данных в живой природе.
Носители данных интересуют нас не сами по себе, а постольку, поскольку свойства информации весьма тесно связаны со свойствами ее носителей. От этих свойств носителя нередко зависят такие свойства информации, как полнота, доступность и достоверность. Так, например, мы можем рассчитывать на то, что в базе данных, размещаемой на компакт-диске, проще обеспечить полноту информации, чем в аналогичной по назначению базе данных, содержащейся на гибком магнитном диске, поскольку в первом случае плотность записи данных на единице длины дорожки намного выше. Для обычного потребителя доступность информации в книге заметно выше, чем той же информации на компакт-диске, поскольку не все потребители обладают необходимым оборудованием. И наконец, известно, что визуальный эффект от просмотра слайда в проекторе намного больше, чем от просмотра аналогичной иллюстрации, напечатанной на бумаге, поскольку диапазон яркостных сигналов в проходящем свете на два-три порядка больше, чем в отраженном.
17
А
1.2.2. Операции
Обработка данных включает в себя множество различных операций. По мере развития научно-технического прогресса трудозатраты на обработку данных неуклонно возрастают. Это связано с постоянным увеличением объемов обрабатываемых данных, с научно-техническим прогрессом, а именно с быстрыми темпами появления и внедрения новых носителей данных, средств хранения и доставки данных.
В структуре возможных операций с данными можно выделить следующие основные:
сбор данных — накопление данных с целью обеспечения дос таточной полноты информации для принятия решений;
формализация данных — приведение данных, поступающих из разных источников, к одинаковой форме, чтобы сделать их сопоставимыми между собой, т.е. повысить уровень их доступности;
фильтрация данных — отсеивание «лишних» данных, в кото рых нет необходимости для принятия решений; при этом дол жен уменьшаться уровень «шума», а достоверность и адек ватность данных должны возрастать;
сортировка данных — упорядочение данных по заданному признаку с целью удобства использования; повышает дос тупность информации;
группировка данных — объединение данных по заданному признаку для более удобного их использования; повышает доступность информации;
архивация данных — организация хранения данных в удоб ной и легкодоступной форме; служит для снижения эконо мических затрат на хранение данных и повышает общую на дежность информационного процесса в целом;
защита данных — комплекс мер, направленных на предотв ращение утраты, воспроизведения и модификации данных;
18
■
транспортировка данных — прием и передача (доставка и по ставка) данных между удаленными участниками информа ционного процесса; при этом источник данных в информа тике принято называть сервером, а потребителя — клиентом;
преобразование данных — перевод данных из одной формы в другую или из одной структуры в другую. Преобразование данных часто связано с изменением типа носителя (види мое), например, книги можно хранить в обычной бумажной форме, но можно использовать для этого и электронную форму, и микрофотопленку. Необходимость в многократном преобразовании данных возникает также при их транспор тировке (невидимое), особенно если она осуществляется средствами, не предназначенными для транспортировки этого вида данных. В качестве примера можно упомянуть, что для транспортировки цифровых потоков данных по ка налам телефонных сетей (которые изначально были ориен тированы только на передачу аналоговых сигналов в узком диапазоне частот) необходимо преобразование цифровых данных в некое подобие звуковых сигналов, чем и занима ются специальные устройства — телефонные модемы.
Приведенный здесь список типовых операций с данными далеко не полон. Миллионы людей во всем мире занимаются созданием, обработкой, преобразованием и транспортировкой данных, и на каждом рабочем месте выполняются специфические операции, необходимые для управления социальными, экономическими, производственными, научными и культурными процессами. Полный список всех операций составить невозможно, да и не нужно. Сейчас нам важен другой вывод: работа с информацией может иметь огромную трудоемкость, и ее надо автоматизировать.
Для автоматизации работы с данными, относящимися к различным типам, очень важно унифицировать форму их представления, и для этого обычно используется прием кодирования. Кодирование — выражение данных одного типа через данные другого типа. Естественные человеческие языки — это не что иное, как
19
системы кодирования понятий для выражения мыслей посредством речи. К языкам близко примыкают азбуки (системы кодирования компонентов языка с помощью графических символов).
Если каждому символу алфавита сопоставить определенное целое число (например, порядковый номер), то с помощью двоичного кода можно кодировать текстовую информацию. Восьми двоичных разрядов достаточно для кодирования 256 различных символов. Этого хватит, чтобы выразить различными комбинациями восьми битов все символы английского и русского алфавита, как строчные, так и прописные, а также знаки препинания, символы основных арифметических действий и некоторые общепринятые специальные символы, например, символ §.
Для того чтобы весь мир одинаково кодировал текстовые данные, нужны единые таблицы кодирования, а это пока невозможно из-за противоречий между символами национальных алфавитов.
■
1.2.3. Основные структуры данных
Работа с большими наборами данных автоматизируется проще, когда данные упорядочены, т.е. образуют заданную структуру. Существует три основных типа структур данных: линейная, иерархическая и табличная. Их можно рассмотреть на примере обычной книги.
Если разобрать книгу на отдельные листы и перемешать их, книга потеряет свое назначение. Она по-прежнему будет представлять собой набор данных, но подобрать адекватный метод для получения из нее информации весьма непросто.
Если разобрать все листы книги в правильной последовательности, мы получим простейшую структуру данных — линейную. Такую книгу уже можно читать, хотя для поиска нужных данных ее придется прочитать подряд, начиная с самого начала, что не всегда удобно.
Для быстрого поиска данных существуют иерархические структуры. Так, например, книги разбивают на части, разделы,
20
главы, параграфы и т.п. Элементы структуры более низкого уровня входят в элементы структуры более высокого уровня: разделы состоят из глав, главы из параграфов.
Для больших массивов поиск данных в иерархической структуре намного проще, чем в линейной. Задачу упрощают еще и тем, что в большинстве книг есть вспомогательная перекрестная таблица, связывающая элементы иерархической структуры с элементами линейной структуры, т.е. связывающая разделы, главы и параграфы с номерами страниц. Эта перекрестная таблица больше известна вам как «Содержание» или «Оглавление».
Приведем примеры различных структур данных.
Список студентов в группе — это линейная структура.
Расписание поездов — табличная структура.
Иерархические структуры:
I. Файловая система:
21
1.3. АВТОМАТИЧЕСКАЯ ОБРАБОТКА
13.1 Состав вычислительной системы
■ ■ • -
В конце XX — начале XXI в. мы наблюдаем новые тенденции гибкой автоматизации труда. Научно-технические достижения показали возможность автоматизации работ с данными за счет использования устройств не механического, а электронного типа.
Совокупность устройств, предназначенных для автоматической или автоматизированной обработки данных, называют вычислительной техникой. Конкретный набор взаимодействующих между собой устройств и программ, предназначенный для обслуживания одного рабочего участка, называют вычислительной системой. Центральным устройством вычислительных систем является компьютер.
В современном понимании компьютер — это универсальный электронный прибор, предназначенный для автоматизации создания, хранения, обработки, транспортировки и воспроизведения данных. Напомним, что это прибор особого типа, в котором сочетаются аппаратные и программные методы обработки информации.
Аппаратное обеспечение. К аппаратному обеспечению относятся устройства и приборы, образующие аппаратную конфигурацию. Современные компьютеры и вычислительные комплексы имеют блочно-модульную конструкцию — конфигурацию, необходимую для исполнения конкретных видов работ, которую можно собирать из готовых узлов и блоков.
Программное обеспечение. Программы — это упорядоченные последовательности команд. Конечная цель любой компьютерной программы — управление аппаратными средствами.
Классификация программного обеспечения
• Базовый уровень. Самый низкий уровень программного обеспечения представляет базовое ПО. Базовые программные средства хранятся в специальных микросхемах, называе-
22
мых ПЗУ или ROM. Программы прописываются в процессе производства и не могут быть изменены в процессе эксплуатации.
• Системный уровень — переходный. Программы этого уровня обеспечивают взаимодействие прочих программ компью терной системы с программами базового уровня и непосред ственно с аппаратным обеспечением, т.е. выполняют по среднические функции. Например, при подключении ново го устройства на системном уровне должна быть установле на программа, обеспечивающая для других программ взаи мосвязь с этим оборудованием (принтер, сканер, камера и т.п.). Такие программы называются драйверами устройств, они входят в состав системного программного обеспечения.
Другой класс программ системного уровня отвечает за взаимодействие с пользователем. Именно благодаря им он получает возможность вводить данные в вычислительную систему, управлять ее работой и получать результат в удобной для себя форме. Эти программные средства называют средствами обеспечения пользовательского интерфейса. От них и зависит удобство работы с компьютером и производительность труда на рабочем месте.
Совокупность программного обеспечения системного уровня образует ядро операционной системы. Если компьютер оснащен операционной системой, то он уже подготовлен к установлению программ более высоких уровней, к взаимодействию с оборудованием, а главное — к взаимодействию с пользователем. Таким образом, наличие операционной системы — непременное условие для возможности работы человека с вычислительной системой.
• Служебный уровень. Программное обеспечение этого уровня взаимодействует как с программами базового уровня, так и с программами системного уровня. Основное назначение слу жебных программ (их также называют утилитами) состоит в автоматизации работ по проверке, наладке и настройке ком пьютерной системы. Во многих случаях они используются для расширения или улучшения функций системных про-
23
грамм. В разработке и эксплуатации служебных программ существует два альтернативных направления. В первом случае служебные программы могут изменять потребительские свойства системных программ, делая их более удобными для практической работы. Во втором случае они предоставляют пользователю больше возможностей для персональной настройки их взаимодействия с аппаратным и программным обеспечением.
• Прикладной уровень. Программное обеспечение прикладного уровня представляет собой комплекс прикладных программ, с помощью которых на данном рабочем месте выполняются конкретные задания. Спектр этих заданий необычайно широк — от производственных до творческих и развлекательно-обучающих.
■
-