Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Аверянов Современная информатика 2011

.pdf
Скачиваний:
113
Добавлен:
16.08.2013
Размер:
6.43 Mб
Скачать

различной формы; систематизация и агрегирование данных. Типичными приложениями, в которых возникают указанные задачи, являются проблемы экономики, управление производством, снабжение, транспорт, складское хозяйство, статистическая отчетность, инвентаризация, архивы, библиотечное дело, финансы и банки, кадры и др. Массовость и трудоемкость решения таких задач требует применения автоматизированных информационных систем.

Автоматизированная информационная система (АИС) – функ-

ционирующий на основе компьютеров и других технических средств информатики комплекс для сбора, хранения, актуализации (обновления) и обработки информации. Основу комплекса АИС составляют технические средства (компьютер или сеть компьютеров с периферийным оборудованием), программное обеспечение, языковые средства и информационные ресурсы. Обычно выделяют два крупных класса АИС – документальные и фактографические, хотя встречаются и комбинированные системы. Документальные АИС предназначены для работы с документами на естественном языке, такими, как книги, статьи, отчеты, труды конференций, патенты, диссертации, авторефераты, архивные материалы. Фактографические АИС, в отличие от документальных, оперируют непосредственно фактическими сведениями из соответствующей предметной области, которые извлекаются из документов и представляются в виде специальных форматизованных записей, созданных средствами технологии баз данных. Наконец, комбинированные документально-

фактографические АИС с помощью общих технических и программных средств могут обрабатывать как документальную, так и фактографическую информацию, причем их информационные ресурсы могут быть как раздельными (кооперированные АИС), так и частично или полностью совмещенными (интегрированные АИС).

Наиболее распространены информационно-поисковые системы

(ИПС) для накопления и поиска информации по запросам пользователей (абонентов). Как и АИС, существуют документальные и фактографические ИПС. ИПС содержат программные средства, поисковый информационный массив данных (документов, сведений), отражающих достигнутый уровень знаний о предметной области, и средства поддержки информационного языка. По мере эволюции знаний о предметной области изменяется и поисковый информационный массив, причем возможные изменения также

311

регламентируются ограничениями целостности данных. Отображаемая в ИПС структура предметной области и ограничения целостности составляют информационно-логическую, или, короче, ин-

фологическую модель предметной области.

Программные средства ИПС оформляются в виде пакетов управляющих и прикладных программ и служат для организации и хранения информации, организации взаимодействия пользователей с системой, обработки пользовательских запросов и выдачи результатов поиска, обеспечения эффективного использования ресурсов компьютера и надежного функционирования системы при одновременной работе многих абонентов. Наиболее продуктивной технологией работы современных ИПС является технология «клиент – сервер», описанная в разд. 8.5.

Поисковый массив данных документальной ИПС составляет ее базу данных. Обычно он не содержит непосредственно текстов документов. Так, автоматизированные библиографические системы, являющиеся наиболее распространенными ИПС, оперируют библиографическими данными, или, реже, рефератами и аннотациями. В фактографических ИПС сведения о предметной области в виде записей на специальном информационном языке также сохраняются в базе данных или нескольких базах данных. В дальнейшем, для определенности, ограничимся документальными ИПС.

Основная функция ИПС – выявление элементов информационного поискового массива, которые отвечают на запрос, предъявленный системе. Запрос составляется пользователем на естественном языке, а затем автоматически преобразуется в поисковый образ запроса – некоторое формализованное предписание. Для поиска используются записанные на информационном языке поисковые образы документов в виде формализованных объектов, отражающих содержание документов, сохраняемых в базе данных. Поисковые образы обычно формируются при вводе документов в базу данных специалистом в соответствующей предметной области. Для этого осуществляется индексирование документов: снабжение их ключевыми словами, рубриками и другими указателями. Возможно также и автоматическое индексирование документов средствами самой ИПС.

При обработке запроса поисковый образ запроса сравнивается с поисковыми образами документов по некоторому критерию, кото-

рый называют критерием смыслового соответствия. Документы,

312

удовлетворяющие этому критерию, считаются релевантными запросу и в ответ на поступивший запрос выдаются сведения обо всех релевантных документах. Правильная реализация критерия смыслового соответствия – одна из наиболее сложных проблем в работе ИПС. При этом надо исключить как неполноту поиска, так и «информационный шум», под которым понимаются случайные погрешности поиска, вследствие которых может не выдаваться часть релевантных документов или, наоборот, выдаются лишние, нерелевантные документы. Основные причины указанных недостатков поиска – неудовлетворительное индексирование документов, слабые языковые и программные средства.

Информационные языки ИПС, называемые также информацион-

но-поисковыми языками, реализуются на основе некоторого подмножества естественного языка. Для преодоления трудностей, связанных с интерпретацией высказываний на естественном языке, ин- формационно-поисковые языки строятся как языки дескрипторного типа. Такие языки основаны на использовании тезаурусов – специальных словарей, описывающих лексические единицы (слова и устойчивые словосочетания) информационно-поискового языка, называемые дескрипторами, и смысловые связи между ними. Тезаурусы, следовательно, предназначены для поиска слов по их смыслу.

В качестве дескриптора могут быть выбраны ключевое слово, словосочетание или цифровой код типа кодов УДК (универсальная десятичная классификация в библиографии), указывающий раздел предметной области. Тезаурус позволяет находить нужные дескрипторы и правильно индексировать документы, однозначно переводить тексты с естественного языка на дескрипторный информационно-поисковый язык, составлять поисковые образы документови запросов. Типичный информационно-поисковыйтезаурус имееттрираздела:

1)алфавитный список дескрипторов;

2)указатель отношений между дескрипторами;

3)руководство по переводу ключевых слов и словосочетаний естественного языка надескрипторныйинформационно-поисковый язык.

Различают два типа отношений между словами естественного или дескрипторного языка: парадигматические и синтагматические отношения. Парадигматические (иммаментные, внутренне присущие) отношения между словами (понятиями) существуют всегда, независимо от контекста. Парадигматические отношения, в свою

313

очередь, делят на отношения подчинения, отвечающие связям вида «класс – подкласс» или «целое – часть» (например, «жидкость» – «нефть»), и ассоциативные отношения, включающие все другие имманентные связи (например, «жидкость» – «текучесть»). Синтагматическими называют ситуативные отношения, возникающие между словами лишь в определенном контексте, т.е. в определенной ситуации, объединяющей обозначенные словами объекты, процессы, явления (например, «ускорение электрона» – электрон есть объект ускорения, «столкновение ядер» и т.п.). Тип отношений учитывается при организации поиска.

Поскольку состав и отношения объектов предметной области все время меняются, активно функционирующая АИС должна находиться в процессе постоянного обновления, который также должен быть автоматизирован. Создание и широкое использование разнообразных АИС – важнейшая задача информатики.

КОНТРОЛЬНЫЕ ВОПРОСЫ

1.Символ, слово, запись, файл, что понимается под этими терминами в информационных системах?

2.Укажите два сновных типа структур данных, используемых при разработке информационных систем. В чем их принципиальное различие?

3.Дайте определение различным видам линейных структур данных и укажите на их характерные особенности.

4.Перечислите основные виды нелинейных структур данных и отобразите их структуру.

5.Рассмотрите основные виды работ с данными типа строка и таблица.

6.Перечислите основные способы организации хранения данных.

7.Укажите основные модели данных, используемых в СУБД. В чем их достоинства и недостатки?

8.Рассмотрите основные функции СУБД. Расскажите о физической и логической организации СУБД.

9.Перечислите разновидности СУБД и различные области их применения.

314

ГЛАВА 9. ТЕХНОЛОГИЯ ОБРАБОТКИ ТЕКСТОВОЙ И ГРАФИЧЕСКОЙ ИНФОРМАЦИИ В ПК IBM-КЛОНА

9.1. Функции текстовых редакторов

Инструментальные программы для подготовки текстов программ, документов, описаний называются текстовыми редакторами (text-editor). Мощные текстовые редакторы с расширенным спектром функций называют текстовыми процессорами (wordprocessor). Некоторые текстовые процессоры могут работать не только с текстами, но и с изображениями, например редактировать иллюстрированные документы.

Основные функции текстовых редакторов и процессоров: работа с файлами – сохранение текста на магнитном диске в ви-

де файла, считывание текста (файла) с диска, копирование в редактируемый текст любого количества строк из другого файла, имеющегося на диске (для надежности редактируемый файл должен периодически записываться на диск по команде пользователя или автоматически);

показ текста на экране – текст или его фрагмент можно показывать в специальном окне объемом 15 – 25 строк, организованном на экране монитора; текст на экране можно передвигать вверх-вниз, влево-вправо с помощью клавиш, помеченных стрелками, а также быстро заменять фрагмент текста на другой фрагмент по номеру строки (некоторые редакторы позволяют организовывать на экране несколько окон с различными файлами или с различными частями одного файла);

вывод на печать (если в составе компьютера имеется принтер); обычно в редакторы, работающие со многими шрифтами и алфавитами, встроена функция вывода на печать, хотя некоторые простые редакторы сами на печать не выводят и требуется сначала записать текст на магнитный диск, выйти из редактора и вывести файл на печать средствами операционной системы;

вставка символов и строк в места, указанные курсором (при этом текст раздвигается);

перемещение части текста, помеченного соответствующим образом (обычно помечаются начало и конец фрагмента), на другое

315

место, указанное курсором, или дублирование части текста в другом месте;

удаление символов и строк, указанных курсором и помеченных соответствующим образом, при этом текст сжимается (обычно редакторы позволяют также восстанавливать ошибочно удаленные фрагменты текста);

контекстныйпоиск– поискстроки по заданномуфрагментутекста; выравнивание ширины – выравниваются правый край, левый край или «по центру строки» путем вставки дополнительных про-

белов (переносы слов при этом не делаются); перенос слов, простейшие редакторы не используют перенос

слов и если слово не помещается в строке, то оно целиком переносится на следующую строку; более мощные редакторы, «понимающие» грамматику языка текста, могут выполнять переносы слов (это удобно при подготовке текста к типографской печати); некоторые редакторы можно «обучать» переносу слов;

резка и склейка строк (можно отделить часть строки и перенести в следующую строку и, наоборот, строку «подклеить» к предыдущей строке);

замена одного фрагмента на другой (можно произвести замену одного фрагмента на другой, например имя «Pascal» заменить во всем тексте на «Basic», автоматически или полуавтоматически (с контролем); можно заменить прописные буквы на строчные, один год на другой и т.п.);

вставка заготовок (можно вставлять заранее заготовленные фрагменты (имена, служебные слова языков программирования) в предварительно помеченные места текста);

орфографический и синтаксический контроль текста с указанием цветом или подчеркиванием мест ошибок или непонятных редактору слов и выражений («обучаемые» редакторы можно научить понимать эти слова и выражения в дальнейшем).

9.2. Сравнительные характеристики распространенных текстовых редакторов

Текстовые редакторы разделяются на три группы:

1) редакторы общего назначения (сюда относятся, например,

редакторы «Лексикон», MS Word, WordPerfect и др.);

316

2)редакторы научных текстов (ChiWriter, ТеХ и др.);

3)редакторы исходных текстов программ (например, MultiEdit или встроенные редакторы систем программирования для языков Бейсик, Фортран, Си и др.).

По сравнению с редакторами общего назначения специализированные редакторы позволяют легче готовить и редактировать соответствующие тексты: например, редакторы научных текстов удобнее для набора математических или химических формул.

Многооконный редактор «Лексикон» – один из простейших текстовых редакторов отечественной разработки для несложных документов на русском или английском языке. Ранее редактор «Лексикон» работал в MS DOS, последние версии редактора предназначены для ОС Windows. Имеются так называемый «базовый вариант» редактора и более мощный профессиональный вариант для работы с пакетом MS Office в ОС Windows. «Лексикон» позволяет открыть на экране монитора до десяти окон, в каждом из которых может редактироваться свой документ.

Вредакторе «Лексикон» предусмотреныследующие возможности: просмотр и исправление текста; автоматическое форматирование абзацев; автоматическое разбиение текста на страницы;

перемещение, выделение, удаление, вставка фрагментов текста; создание оглавлений; использование подчеркиваний, курсива, полужирного шрифта;

одновременное редактирование нескольких документов и обмен

материалами между окнами; работа в графическом режиме;

печать текста на принтерах разных типов; печать верхних и нижних индексов, греческих букв, математи-

ческих символов; просмотр на экране вида напечатанного материала до печати;

набор текста в несколько колонок; автоматическое сохранение редактируемого документа через

несколько строк (страниц); проверка орфографии; контекстный поиск.

В последнее время редактор «Лексикон» быстро вытесняется более мощными (но и более сложными) редакторами.

317

Текстовый редактор MS DOS Editor может применяться только для редактирования текстов файлов канонического формата, состоящих лишь из букв и цифр и не имеющих изображений. Редактор может вызываться из MS DOS и Windows и по своим возможностям близок к «Лексикону», но имеет более удобный интерфейс.

Текстовый редактор Windows 95 NotePad («Блокнот») – простейший редактор, входящий в Windows 95. Имеет ограниченные возможности, но очень простой для изучения и использования. Среди других средств редактирования, используемых в ОС Windows, отметим текстовые процессоры Word Pad, Word 6.0, Word 95 (Word 7.0), Word 97 (Word 8.0), Word 2000 (Word 9.0). Многоокон-

ные процессоры Word 95, 97, предназначенные для ввода, редактирования и форматирования текстов, могут работать одновременно с несколькими документами, каждый из которых отображается в своем окне. Можно менять размеры окон, а также вид и начертание шрифтов, оформлять текст в несколько столбцов, выполнять многие другие операции.

Рассмотрим, например, многооконный текстовый процессор MS Word 2002 (одна из последних версий редактора MS Word) – один из самых совершенных, входит в пакет MS Office 2002 и имеет сотни операций над текстовой и графической информацией. Как и ОС Windows, построен по оконной технологии с использованием ниспадающих меню и пиктограмм. Обладает универсальностью, позволяет достаточно быстро и с высоким качеством готовить практически любые документы: от деловой записки или письма до макета книги. Имеет множество технологических приемов редактирования текстово-графической информации, широкий набор шрифтов разной формы и размера, проверку орфографии и грамматики, автоматический перенос слов. Можно делать ссылки в тексте (это позволяют не все редакторы), работать с готовыми шаблонами документов, отключать часть средств или модифицировать используемые средства для ускорения работы. В текст можно включать рисунки, которые можно редактировать, изменяя масштаб, форму, качество изображения; формировать «обтекание» рисунка текстом, использовать рисунок в качестве фона. Позволяет вставлять в текст таблицы различного размера и сложности, поворачивать текст на странице, вставлять номера страниц и многое другое. Благодаря этим возможностям с помощью редактора Word может выполнять-

318

ся верстка документов, как это делается в некоторых типографиях. Имеются средства, облегчающие подготовку документов для сети

Internet.

Усовершенствованием рассмотренных выше редакторов Word является более удобный в работе текстовый процессор WordPerfect, имеющий ряд версий. Редактор контролирует правописание, вычерчивает отрезки линий, оформляет рамки, формирует ссылки, оглавления, указатели, имеет много других возможностей.

Универсальность процессоров Word сопряжена, однако, и с некоторыми недостатками, к которым относятся трудности освоения и относительно низкая производительность при редактировании простых текстов. Поэтому для подготовки простых однородных текстов иногда целесообразно сначала воспользоваться несложными редакторами типа MS DOS Editor или «Лексикон», затем отформатировать полученный текст для Word и уже с помощью Word улучшить его в изобразительном отношении. При наличии в тексте большого количества сложных математических или химических формул более производительным может быть, например, редактор ChiWriter. Наконец, редакторы Word не подходят для подготовки такой сложной полиграфической продукции, как атласы, высококачественные рисунки (копии фотографий), иллюстрированные альбомы.

9.3. Типы и характеристики компьютерной графики

Современные компьютеры все шире применяются для построения изображений (рисунков), используемых в научных исследованиях; для наглядного представления результатов; в конструкторских разработках, тренажерах, компьютерных играх; в инженерном, издательском, рекламном деле и других областях. Компьютерная графика служит основой анимации, под которой понимается изменение вида, формы, размеров, расположения объектов на экране, создающее эффект мультипликации. Различают три основных типа компьютерной графики: растровая, векторная и фрактальная. Обычно особо выделяют еще трехмерную (3D – three-dimensional) графику как средство построения объемных изображений. По цветности различают черно-белую и цветную компьютерную графику, а по областям применения – инженерную, научную, дело-

319

вую, игровую (развлекательную) компьютерную графику, компьютерную полиграфию и другие типы.

В растровой графике изображение строится как множество точек, так называемых пикселов. Пиксел (сокращение от слов picture cell – элемент изображения) представляет собой единицу измерения разрешения экрана (монитора) или печатного изображения и соответствует отдельной светящейся точке, цветом и яркостью которой можно управлять. Растр экрана монитора с диагональю 20 – 21" может содержать от 0,3 до 3 млн пикселов. Поскольку изображение может быть цветным, для кодирования одного пиксела может потребоваться до трех байт информации. На весь экран, следовательно, может потребоваться от 1 до 10 Мбайт, т.е. весьма значительный объем, но изображение, тем не менее, может быть довольно грубым. Качество изображений принято оценивать по числу пикселов на 1" длины. Единицу такого измерения называют dpi – dots per inch. Для газетных иллюстраций достаточно около 70 dpi, для полноцветной полиграфической печати 200-300 dpi, для фотоэкспонирующих устройств профессионального класса 2500 dpi, тогда как экран монитора обычно обеспечивает лишь несколько десятков (например, 70) dpi и расстояние между соседними точками около 0,25 мм, что недостаточно для получения изображений высокого качества.

При растрировании изображения на него как бы накладывается сетка линий, разбивающая его на квадратные ячейки. Число линий на дюйм Lpi (Lpi – lines per inch) называется линиатурой. Для ла-

зерных принтеров рекомендуемая линиатура составляет 65 – 100, для газет 65 – 85, для книг и журналов 85 – 133, для художественных и рекламных работ 133 – 300. Интенсивность тона – светлота, определяется числом точек (пикселов) в ячейке растра. Для человеческого глаза рекомендуется 256 уровней тона, т.е. в ячейке должно помещаться до 16 16 = 256 пикселов. Для изменения уровня тона можно также изменять размеры пикселов; максимальный размер пиксела равен, очевидно, размеру ячейки растра.

Растровая графика позволяет строить изображения очень высокого качества, но, как видно из приведенных оценок, для этого требуется очень большой объем компьютерной памяти (например, для журнальной иллюстрации – до 130 Мбайт и более). Помимо больших запросов на память, недостатком растровой графики являются

320