Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Электронная информация и электронные ресурсы

..pdf
Скачиваний:
2
Добавлен:
20.11.2023
Размер:
20.88 Mб
Скачать

Сканирование или оцифровка печатных и графических текстов

тановленным у вас программным обеспечением. И в этом слу­ чае также рекомендуются детальное предварительное рассмот­ рение и проведение пробных оцифровок.

Требования к компьютеру и программному обеспечению при сканировании предъявляются достаточно высокие. В каче­ стве иллюстрации возьмем предельно простой случай — скани­ рование листа белой бумаги формата А4 с нанесенной на него косой черной чертой, допустим, по диагонали из конца в конец. При заданном пространственном разрешении 300 dpi в каждой строке будет 2500 точек и 3536 точек по высоте, всего 8,9 млн то­ чек на страницу; если в каждой точке фиксировать только ее ко­ ординаты и самую простую информацию, то на одну страницу потребуется зарезервировать память в несколько мегабайтов. Конечно, такой простейший способ никогда не применяется, а широко используются системы сжатия (компрессии) данных. Для иллюстрации принципов сжатия можно, например, не фиксировать тупо каждый показатель, а фиксировать только их изменения; это уже сэкономит необходимую память в несколь­ ко тысяч раз. Если же для передачи все той же косой черты дать

ее уравнение (в данном случае это линейная зависимость типа

у= ах + b), то вместо нескольких мегабайтов можно обойтись десятком байтов.

5.2.2.Сжатие данных (компрессия) и форматы оцифровки

Из приведенных примеров видно, что сканирование тек­ стов, изображений или микрофильмов приводит к созданию очень больших цифровых массивов. Работать с ними не очень удобно — большие емкости памяти, большое время обработки массивов, их пересылки. Поэтому с «сырыми» массивами оцифрованных данных стараются не работать, а используют так называемую компрессию, или сжатие данных. Зачастую речь идет просто об удалении не очень важных для раскрытия содер­ жания документа подробностей. Эта работа в чем-то близка ре­ ферированию — нужно путем разумного компромисса значи­ тельно сократить объем документа, не утратив его смысла. В на­ стоящее время разработано много систем компрессии данных,

191

Глава 5. Создание, хранение электронных документов и работа с ними

каждая из которых имеет свои преимущества и недостатки и, значит, пригодна для соответствующего применения.

Формат TIFF работает как со сжатыми, так и с несжатыми массивами данных, при этом формат T IFF G4 обеспечивает компрессию черно-белого материала без потери. Конечно, если процедура сжатия без потерь является доступной, она должна применяться в целях экономии объемов необходимой памяти. Но поскольку не все без исключения программы могут работать со сжатыми данными в формате TIFF, соответствующую со­ вместимость следовало бы опробовать заранее. В любом сомни­ тельном случае следует рекомендовать работу с несжатыми мас­ сивами.

Широко используемый для передачи и хранения данных оцифровки полутоновых и цветных фотографий формат JPEG (Joint Photographic Experts Group), разработанный объединен­ ной группой экспертов по фотографии, работает в режиме пере­ менных коэффициентов сжатия и поэтому не рекомендуется для массовых проектов, в которых необходимы стандартизация и унификация. Каждое промежуточное сохранение приводит к некоторым потерям данных, поэтому в данном формате лучше хранить только окончательные версии графических файлов.

Формат обмена изображениями GIF (Graphics Interchange Format) также не зависит от платформы и позволяет хорошо сжимать файлы, в которых много однородных элементов (зали­ вок, схем, логотипов и т. п.). Алгоритм G IF широко распростра­ нен для передачи кнопочек, баннеров в оформлении интерне­ товских интерфейсов и является платным, принадлежит компа­ нии CompuServe.

Довольно громоздкими оказываются и массивы данных вы­ сококачественной цифровой звукозаписи. В соответствии со стандартом ISO 9660 оцифровка музыкального произведения осуществляется так называемой импульсной модуляцией (Pulse Code Modulation, PCM). В секунду берется 44 100 образцов (темп сбора образцов (сэмплирования) составляет 44,1 кГц), каждому из сэмплов присваивается одно из 16 536 возможных значений (запись в 16 битов). Экономия может быть достигнута разными способами: уменьшением темпа взятия образцов (до 22,05 или даже до 11,025 кГц), либо уменьшением объема за­ писи одного сэмпла (использование 8-битовой записи, предо-

192

Сканирование или оцифровка печатных и графических текстов

ставляющей 256 значений), либо уменьшением числа каналов поступления информации (моно вместо стерео или квадро).

Развитие технологии импульсной модуляции состоит в за­ писи только разницы между соседними образцами, а не их абсо­ лютного значения. Эта методика называется адаптивной им­ пульсной модуляцией (Adaptive Differential Pulse Code Modulation, ADPCM ) и уменьшает объем необходимой памяти в 16 раз по сравнению с РСМ.

Еще одна методика сокращения объемов памяти при записи музыкальных произведений — использование системы так на­ зываемого интерфейса цифровых музыкальных инструментов (Musical Instrument Digital Interface, MIDI). В этой технологии записываются не образцы звуков, а их нотные обозначения в цифровом формате (высота и длительность звука); при этом достигается экономия примерно в 60 раз по сравнению с ADPCM.

Для сжатия музыкальных и видеофайлов широко использу­ ется стандарт, разработанный группой экспертов по кинофиль­ мам (Motion Pictures Expert Group, MPEG), который к настоя­ щему времени имеет несколько рабочих версий, в том числе формат MP3, используемый в аудиоплеерах и при передаче му­ зыкальных произведений через Интернет. Если CD-ROM обес­ печивает не более 74 минут звучания, то диски с записями фор­ мата MP3 обеспечивают 7—8 часов звучания. При воспроизве­ дении видеоинформации технология VHS потребовала бы темпов расходования запаса памяти 100—200 Мб в минуту, по­ этому бесплатный алгоритм сжатия MPEG позволяет сжимать в отношении 180:1 за счет передачи только изменений в кар­ тинке.

5.2.3.Оптическое распознавание букв

Оптическое распознавание букв (символов) (Optical Characters Recognition — OCR) представляет собой компьюте­ ризованный процесс превращения элементов изображения тек­ ста в буквенно-цифровые коды, соответствующие таблицам ASCII, и последующее формирование слов, отвечающее кон­ тексту. Программы распознавания опираются на встроенные

193

Глава 5. Создание, хранение электронных документов и работа с ними

системы многоязычных словарей и списков замещений; поль­ зователь может по желанию сохранять сегментирование стра­ ницы (колонки, блоки текста, графики) или сделать итоговый текст однородным и компактным. Для практических примене­ ний уровень надежности распознавания должен быть не ниже 99,5%, то есть не более 4—5 ошибок на 1000 знаковых единиц. В России широкое распространение получило семейство про­ грамм, поддерживающих сканирование и оптическое распозна­ вание символов русского и английского языков Fine Reader (4.0 Professional и более высокие версии) компании ABBYY и др.

5.3. Носители информации*

На первых порах достаточно существенным было деление возможных носителей цифровой информации на стационарные и портативные устройства (в данном случае правильнее бы ис­ пользовать прямой перевод — переносимые). Для систем персо­ нальных компьютеров обоих типов — IBM PC или Macintosh основным стационарным носителем информации был и остает­ ся жесткий диск.

Портативные устройства очень быстро развивались и транс­ формировались. Первые по времени появления стандартные гибкие диски диаметром пять дюймов с четвертью и емкостью несколько сотен килобайтов (до 360) уже не используются, и до­ вольно трудно будет найти оборудование для считывания ин­ формации, записанной в свое время на них. Пришедшие на смену стандартные диски три с половиной дюйма и емкостью 1,44 Мб также понемногу выходят из употребления. Новые ком­ пьютеры уже зачастую не имеют соответствующих приводов. Впоследствии пришли записываемые оптические компакт-дис­ ки — CD-R или CD-RW, DVD-R, DVD-RW, а также устройства, не содержащие вращающихся частей, — FlashJet и подобные, совместимые с универсальными портами USB. Нужно сказать, что на развитие компактных устройств памяти очень большое

* Материал дается на основе публикаци й авторов, о б щ и х сведений из инф орматики, в том числе из справочников по ко м пь ю терной технике.

194

Носители информации

влияние оказало внедрение музыкальных стандартов, цифро­ вых видео- и фотокамер.

Однако же совершенно революционные перемены в соотно­ шении стационарных и переносимых устройств принесло рас­ пространение Интернета. Необходимость брать с собой ка­ кие-то электронные документы отпадает, если в пункте назна­ чения и у вас имеется возможность использовать Интернет. Несколько упрощая, можно спросить самого себя: «Зачем пере­ носить, если можно переслать?»

С точки зрения типологии в дополнение к стационарным и портативным устройствам можно бы вводить и третий тип средств передачи данных, а именно: оборудование для связи че­ рез Интернет и по мобильной связи (мобильные телефоны вто­ рого и третьего поколений, смартфоны и т. п.). Вто же время ог­ раниченные скорости передачи данных могут перевернуть ваше представление о возможностях Интернета. Например, если вам почему-либо понадобилось передать на значительное расстоя­ ние очень большой массив информации, скажем 500 Гб, то вре­ мя передачи его по линии с пропускной способностью 1,5 Мбит/с составит более 30 дней непрерывной работы! Для та­ кого случая будет намного проще и удобнее переписать весь массив на выносной жесткий диск и просто отвезти его на место.

5.3.1.Физические основы записи цифровой информации

Для записи символов машиночитаемой информации ис­ пользуются изменения различных физических параметров, на­ пример:

сквозная проницаемость «на просвет» (перфокарты);

светоотражающая способность (оптические компакт-дис­ ки CD -ROM , вся печатная и рукописная продукция, ис­ ключая тексты Брайля);

изменения электрической проводимости (открытое или закрытое положение транзистора);

изменения намагниченности (магнитные ленты, диски);

изменения квантовых параметров;

195

Глава 5. Создание, хранение электронных документов и работа с ними

формирование последовательностей выпуклых точек (тексты Брайля);

другое.

Всоответствии с параметрами физической среды записи и считывания информации различаются: магнитные носители, оптические носители, смешанные магнитооптические носите­ ли, платы памяти — микросхемы.

Наиболее распространенная геометрическая форма носи­ теля:

диски (односторонние и двусторонние);

ленты;

плоские платы памяти — микросхемы (чипы);

отдельные портативные устройства.

5.3.2.Жесткий диск

Это общепринятый физический носитель информации в сервере и в персональном компьютере. Ж есткий диск, иногда называемый «винчестер», состоит из набора вращающихся на одной оси плоских дисков диаметром несколько сантиметров (типичный диаметр — от трех с половиной дюймов и менее), покрытых магнитным слоем. Эксплуатационные свойства же­ сткого диска весьма привлекательны: большая емкость, быст­ рый доступ к записанной информации, высокий темп считыва­ ния информации и взаимозаменяемость (стандартизация дис­ ков). Быстрый доступ к информации обеспечивается небольшим расстоянием, которое проходит считывающая го­ ловка при поиске нужного места, а также записью информации в предварительно созданные (отформатированные) секторы на диске. Технические особенности, обеспечивающие малый из­ нос считывающих головок и магнитного слоя поверхности пла­ стины, — бесконтактное считывание информации, «полет» го­ ловки над диском. Принимаются специальные меры по обеспе­ чению надежности опорных подшипников жесткого диска, например используются газодинамические подш ипники, то есть также режим «полета» над опорной поверхностью. Поэто­ му для обеспечения ресурса сервера опасно не количество отра­

196

Носители информации

ботанных часов, а число включений/выключений, связанных с «посадкой» головок и разгоном дисков. Указанная особенность конструкции диска дает возможность (при наличии устройств бесперебойного питания) оставлять сервер включенным в тече­ ние многих суток (недель). Таким образом достигается одно из существенных преимуществ электронной библиотеки — обслу­ живание пользователя 24 часа в сутки круглый год.

Примерные параметры жестких дисков.

1. Семейство жестких дисков компании Seagate Technology, Barracuda 7200, емкость 160/120/80/40 Гб, с интерфейсом Serial АТА, среднее время поиска 8,5 мс; одна из последних разрабо­ ток — жесткий диск Barracuda NL35, объем памяти 500 Гб, 3 пластины, скорость вращения пластин 7200 оборотов в мину­ ту. Скорость считывания данных составляет 47 Мб/с. Еще один образец продукции той же компании — семейство дисков Cheethah со скоростью вращения дисков 15 тыс. оборотов в ми­ нуту, памятью до 300 Гб.

2. Отвечает самым высоким требованиям надежности бес­ шумный и противоударный жесткий диск компании Samsung емкостью 40,8 Гб; скорость вращения пакета из 2 дисков 5400 оборотов в минуту; емкость буфера 512 Кб, среднее время доступа 8,5 мс, скорость передачи данных до 66 Мбит/сек. Среднее время наработки на отказ 500 тыс. часов (это примерно 57 лет), удельная стоимость хранения данных — 1 доллар за 200 Мб, то есть 0,5 цента за 1 Мб.

3. Тот же принцип обеспечения высокой надежности реали­ зует конструкция жесткого диска WD Caviar компании Western Digital для серверов емкостью до 250 Гб, обладающего специ­ альной функцией контроля надежности и предупреждения вы­ хода диска из строя. Расчетное время наработки на отказ со­ ставляет 1 млн часов (более 100 лет).

Для хранения больших массивов данных существуют специ­ альные дисковые системы с высоким быстродействием, напри­ мер, в продажу поступает цифровая библиотека-хранилище (конструктивно — один шкаф) из дисков по 73 Гб каждый, сум­ марной емкостью 9 Тб.

Завершая данный раздел, приведем обобщенное суждение об особенностях кинематики в конструкции жестких дисков. В позиции ожидания и в работе диск находится в состоянии

197

Глава 5. Создание, хранение электронных документов и работа с ними

равномерного, непрерывного и быстрого вращения. Обраще­ ние к записанной информации происходит за счет поперечного перемещения головок на очень короткую дистанцию . Нагрузка на физическую основу носителя (создается центробежной си­ лой) постоянна во все моменты времени.

5.3.3.Носители информации на магнитных лентах

Данные носители реже используются сегодня, чем на заре компьютерной эры. Тем не менее их преимущества очевидны: это хорошо освоенные технологии производства, высокая плот­ ность записи, высокая скорость считывания информации и большая емкость. Однако конструктивное различие ленточных устройств по сравнению с жесткими дисками в кинематике яв­ ляется абсолютно принципиальным.

Состояние ожидания — это неподвижная лента.

Выход на исходную позицию при поиске файла на опре­ деленном и заранее неизвестном участке ленты — это ус­ коренное движение (перемотка) и последующее резкое торможение.

Рабочий режим считывания или записи — это равномер­ ное движение ленты со скоростью, намного меньшей, чем при поиске.

Ленточные устройства используют не монотонный, а «рва­ ный», пульсирующий режим работы, с большой и переменной во времени механической нагрузкой на физическую основу но­ сителя информации. Неустранимый недостаток устройств с ис­ пользованием магнитных лент — большое время доступа к ин­ формации, постепенное стирание магнитного слоя, ухудшение записи из-за размагничивания ленты, вытягивание ленты-ос­ новы в ходе эксплуатации. Тем не менее цифровые устройства хранения информации очень часто реализуются на магнитных лентах, например стримеры, цифровые магнитофоны DAT (Digital Audio Таре), магнитофоны со спиральной дорожкой за­ писи, занимающей всю ширину магнитной ленты (Exabyte).

Некоторые примеры устройств хранения информации: лен­ точные накопители Surestore с технологией DLT (Digital Linear

198

Носители информации

Таре), в которых используются кассеты емкостью 160 Гб каж­ дая, скорость передачи данных 16 Мбит/с (384 дорожки, сред­ нее время доступа к файлу порядка 70 с). В качестве иллюстра­ ции широкого распространения этих систем укажем, что к 2002 г. было продано 2 млн приводов, 80 млн картриджей.

Разработан открытый формат Ultriym, в котором использу­ ются кассеты на 200 Гб, и скорость передачи данных составляет 20 Мбит/с. На базе этих устройств созданы цифровые хранили­ ща — роботизированные библиотеки с суммарной емкостью 10 Тб, темпом передачи данных до 10 Мбит/с.

Российская компания «Мобильные ТелеСистемы» (МТС) установила недавно ленточную библиотеку Exabyte Х200 (один шкаф), способную хранить до 30 Тб сжатых данных (это эквива­ лент 30 млн томов), — для резервного копирования и архивиро­ вания биллинговых (платежных) записей. Библиотека состоит из 200 кассет, до 150 Гб на кассету, темп передачи данных 30 Мбит/с.

5.3.4. Компактные оптические диски

Диски «только для чтения» CD-ROM с предварительно за­ писанной и неизменяемой информацией — один из наиболее надежных и распространенных носителей цифровой информа­ ции. Особенно полезны такие диски для записи неизменяемой информации, например архивных или ретроспективных изда­ ний, коллекций рисунков и подобных данных, которые могут потребоваться большому числу пользователей. Полезно отме­ тить разницу и сходство между веб-сайтом и оптическим дис­ ком. Хотя оба вида содержат машиночитаемую информацию, диск в обслуживании намного ближе к печатному формату. Это подтверждает библиотечная практика. Диском владеют физиче­ ски, его можно каталогизировать и поставить на полку библио­ теки. В то же время есть и очень важное технологическое и ло­ гическое единство: обе технологии работают в режиме форми­ рования стандартных пакетов информации.

Технология CD -ROM появилась благодаря сотрудничеству фирм Sony (Япония) и Philips (Нидерланды). В 1987 г. Между-

199

Глава 5. Создание, хранение электронных документов и работа с ними

народная организация по стандартизации выпустила междуна­ родный стандарт ISO 9660 «Обработка информации — структу­ ра файла и тома CD-ROM для обмена информацией (1988)», ко­ торому в настоящее время соответствуют практически все рыночные виды CD-ROM.

Аудиокомпакт-диск, или CD-ROM, — это диск диаметром 12 см из чистого поликарбонатного пластика, покрытый отра­ жающим металлом (алюминий, золото) и защитным слоем про­ зрачного лака. Сфокусированный лазерный луч считывает мельчайшие (0,5 микрона) углубления вдоль спиральной до­ рожки общей длиной 4,5 км. Плотность кодирования очень вы­ сока: на дорожке аудиокомпакт-диска, или CD -ROM , содер­ жится около 3 млрд кодов. На стандартном компакт-диске мо­ жет быть записано 74 минуты звучания или около 680 Мб информации. Диск не имеет физически выделенных дорожек и не нуждается в форматировании, а запись идет вдоль некоей виртуальной спирали, делающей 20 тыс. оборотов от центра на­ ружу. Информация считывается с диска при движении с посто­ янной линейной скоростью: диск вращается медленнее (200 оборотов в минуту), когда считывающая головка находится на его внешней части. Воспроизведение осуществляется встро­ енными в компьютер устройствами с возможностью ускоренно­ го вращения диска (и передачи данных) кратностью 8, 16,32,40 и выше.

Логическая структура дисков CD-ROM в формате ISO 9660 имеет четырехуровневую архитектуру: бит, байт, блок, файл. Физическая структура приведена ниже. Эта архитектура позво­ ляет использовать CD-ROM с различными операционными системами так, как будто это просто еще один магнитный диск или накопитель файлов. Структура блока C D -ROM приведена в табл. 31 (в каждом блоке 2352 байта).

 

 

 

 

 

Таблица 3!

Структура блока CD-ROM формата ISO 9660, байты

Синхрониза­

Заголовок

Основные

Коды обнару­

Не использу­

Коды коррек­

ция

 

данные

жения ошибок

ется

ции ошибок

12

4

2048

4

8

276

200

Соседние файлы в папке книги