Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
оцифровка (6).docx
Скачиваний:
68
Добавлен:
22.02.2016
Размер:
2.36 Mб
Скачать

Правовые аспекты[править]

По существующим в большинстве стран законам, книги являются объектами одновременно авторского и имущественного права. Имущественное право — это право на распространение и продажу книги, а также право на любое копирование или даже бесплатное распространение через интернет. Автор книги имеет особые права, такие, как требовать признания авторства или заключать контракты с издателями. Если данная книга является объектом имущественного права, это означает, что её нельзя копировать или вообще как-либо распространять (даже бесплатно) без разрешения правообладателя.

На каждой книге среди выходных данных указаны обладатели имущественного права и, соответственно, ограничения на распространение книги. Однако имущественное право на книги имеет конечный срок давности, — это обычно 50 лет (в некоторых странах 75 лет) после смерти автора и 75 лет (в США — 95 лет) со времени публикации книги. В России и других странах бывшего СССР имеет место особая ситуация с книгами, вышедшими до 1971 года, поскольку лишь в 1971 году СССР вступил в международную конвенцию по авторским правам. Поэтому книги, вышедшие в СССР до 1971 года, как правило (есть и исключения), не являются больше объектами имущественного права. Книги, изданные в США до 1924 года включительно, или в Европе до 1932 года включительно, тоже, как правило, уже больше не являются объектами имущественного права.

Законной является оцифровка книг, права на которые истекли, или книг, авторы и издатели которых разрешают их свободное распространение через интернет или другим образом (например, если автор выложил на интернет-странице электронную книгу после того, как издательство вернуло ему все имущественные права). Учтите, что законом запрещается оцифровывать или копировать (в том числе через бесплатные или платные интернет-сайты) электронные книги, являющиеся в настоящее время объектами имущественного права. Хранение таких электронных книг на вашем личном компьютере уже является копированием и также запрещено, за исключением того случая, если вы сами купили эту книгу у издательства в электронном виде. Даже если у вас есть купленный вами бумажный экземпляр какой-либо книги, защищенной имущественным правом, закон запрещает вам изготавливать оцифрованную версию этой книги или хранить на своём компьютере где-либо взятую оцифрованную версию, если только вы сами не купили электронную книгу у издательства, дополнительно к бумажному экземпляру.

Мы призываем вас знать и соблюдать законы той страны, где вы живете, и оцифровывать только материалы, не являющиеся объектами имущественных прав. Данное руководство по оцифровке книг имеет чисто технический характер и не может рассматриваться как инструкция по нарушению закона. Ссылки на интернет-источники предоставляются только в целях ознакомления с техникой оцифровки.

Форматы djvu и pdf[править]

Формат DJVU позволяет сжимать растровое изображение несколько лучше, чем PDF, просматривается несколько быстрее, а также более удобен в технической обработке. Например, есть простые и бесплатные программные средства для редактирования гиперлинков, закладок и OCR-слоя в DJVU, но таких средств нет для PDF. Также, файлы DJVU более устойчивы к сбоям, чем PDF, и менее зависимы от версии просмотрщика, поскольку формат DJVU гораздо проще. Недостаток DJVU: возможность внести искажения при сильном сжатии и большое количество разных режимов сжатия приводят к тому, что сделать некачественный файл начинающему пользователю довольно легко. Также, DJVU файлы (по теперешнему стандарту) позволяют делать гиперлинки на другую страницу того же документа, но не на другой файл, не на сайт интернета, и не на выбранное место на данной странице (это можно делать в PDF). Однако формат DJVU несложен, документирован и содержит гибкий механизм добавления метаинформации: к каждой странице можно добавлять произвольную информацию в виде нескольких пар key=value. Поэтому в принципе можно сделать всё это и многое другое (например проверку md5sum или криптографическую подпись) средствами формата DJVU.

Главное достоинство формата PDF — широкая совместимость (у всех есть бесплатный Acrobat Reader или его аналоги) и тот факт, что большинство людей пока ничего не знают о формате DJVU. Однако, надо заметить, что программы для просмотра DJVU тоже бесплатные и требуют гораздо меньших ресурсов компьютера, чем Acrobat Reader. Недостатки PDF в основном технические, но они существенны. Главный недостаток — невозможность определить разрешение растра, находящегося внутри PDF. Это приводит к сильным потерям в качестве изображения при попытках улучшить качество неоптимально сделанного растрового PDF файла. Неоптимальные PDF файлы могут иметь размеры 100—200 КБ на страницу и даже более. Оптимальный растровый PDF тратит от 10 до 20 КБ на страницу, что примерно на 30—50 % больше, чем DJVU. Другие недостатки формата PDF — невозможность эффективно редактировать файлы и чувствительность к сбоям при передаче файлов. Сбойный файл часто невозможно просмотреть даже частично. К техническим недостаткам формата PDF относится и то, что иногда не получается произвести оптимизацию размера файла, которая в принципе была бы возможна, если бы формат PDF был лучше спроектирован.

1. Чтобы определить разрешение растра, находящегося внутри готового PDF, можно воспользоваться функционалом Adobe Acrobat (описываю по версии 5.0). Извлекаем изображения из pdf-файла: File -> Export -> Extract Images As -> TIFF Files. В разделе Settings выбрать Colorspace: Determine Automatically и Resolution: Determine Automatically.

Сохраненные изображения открыть в Irfan View и нажать кнопку «Image Information». Работает для большинства pdf-файлов. За редким исключением. Иногда, действительно, попадаются файлы, которые не поддаются такой обработке (Acrobat выдает ошибку типа: XObject cannot be extracted).

2. Чтобы установить разрешение растра, который будет получен в pdf при печати изображения на виртуальный принтер Distiller (описываю по версии 5.0), нужно выбрать в свойствах принтера пресет «Screen» (Принтер -> Свойства -> Общие — Настройка печати -> Adobe PDF Settings — Conversion Settings: Screen). Чуть ниже в этом же диалоге нажать кнопку Edit Conversion Settings, на закладке Compression снять галочки со всех Average Downsampling. Тогда разрешение изображений меняться не будет. (Или выставить в 600 dpi. Тогда только изображения с большим разрешением будут приводится к 600 dpi.) Пресет сохранить под новым именем, скажем, Screen-fullresolution.

3. Чтобы оптимизировать размер pdf-файла нужно в Adobe Acrobat пересохранить документ через меню File -> Save As… (Ctrl-Shift-S). При внесении исправлений в документ (добавление/удаление комментариев и пр.) и сохранении нажатием Save (Ctrl-S) размер файла только увеличивается (даже если вы все внесенные изменения «удалите»). То есть Save сохраняет быстро, но некомпактно, а Save As сохраняет компактно, но долго. Иногда компактизировать документ помогает печать pdf-документа на Distiller (т. н.redistilling). Следует быть осторожным, в неанглоязычных документах могут возникнуть проблемы с отображением шрифтов.

Проиллюстрируем соотношение размеров PDF и DJVU файлов. Перевод в формат DJVU типичной отсканированной издательством статьи из журнала Physical Review (у них высокое разрешение и хорошее качество сканирования) уменьшает размер издательского PDF файла в 10 раз. Во многих случаях перевод из векторного PDF в DJVU, даже с высоким качеством изображения и сохранением текста и навигации, всё равно даёт файл DJVU меньшего размера, чем исходный PDF. Это очень часто относится к файлам, созданным такими программами, как Quark Express, Acrobat Distiller (но не к файлам, созданным с помощью Latex/Ghostscript). Иногда векторные PDF файлы содержат много формул в виде вставных растров; такие файлы уменьшаются в 3—4 раза при переводе в DJVU.

Именно технические достоинства формата DJVU и возможность автоматизированно обрабатывать DJVU файлы привели к широкому использованию формата DJVU среди энтузиастов создания растровых электронных книг, в основном научно-технического характера.