Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
KL_Informatika_i_KT_M1_M2.doc
Скачиваний:
17
Добавлен:
26.11.2018
Размер:
2.48 Mб
Скачать

Копирование, перемещение и удаление фрагментов текста

Наиболее часто используемые операции с выделенным фрагментом текста — копирование, перемещение и удаление фрагментов текста. Эти операции могут выполняться как с буфером промежуточного хранения, так и без него. Например, возможно перетаскивание фрагментов мышью на новое место с удалением по старому месту. Если при перетаскивании фрагмента текста удерживать нажатой клавишу CTRL, то происходит копирование фрагмента (без удаления ао старому месту).

Буфер обмена

Сущность операций, использующих буфер промежуточного хранения, состоит в том, что помеченный фрагмент текста переносится на новое место, копируется туда или просто удаляется.

Поскольку все приложения Windows работают через общий системный буфер промежуточного хранения, операции с фрагментами текста могут затрагивать не только внешние документы, но и другие приложения. Так, можно перенести (скопировать) помеченный фрагмент из текущего документа, создаваемого в MS Word, в какой-либо документ в табличном процессоре Excel, или, наоборот, использовать часть внешнего документа, находящегося в другом окне.

1.Выделить часть текста (фрагмент).

2.Копирование - перенос выделенного фрагмента в буфер промежуточного хранения без удаления по старому месту фрагмента: кнопка Копировать, команда Копировать строки меню Правка или сочетание клавиш CTRL+C.

Вырезать - перенос выделенного фрагмента в буфер промежуточного хранения с удалением по старому месту фрагмента: кнопка Вырезать , команда Вырезать строки меню Правка или сочетание клавиш CTRL+Х.

Вырезанный фрагмент текста помещается в буфер промежуточного хранения, так же как в операции копирования. При необходимости его можно восстановить, если не была произведена очередная операция копирования. Новый фрагмент текста заменяет в буфере обмена предыдущий.

3.Переместить курсор в нужное место документа.

4.Вставка (перенос) выделенного фрагмента из буфера в место документа, указанное курсором (кнопка Вставить, команда Вставить строки меню Правка или сочетание клавиш CTRL+ V).

Перемещение и копирование текста на небольшое расстояние

1.Выделите текст, который необходимо переместить или скопировать.

2.Для перемещения выделенного фрагмента с помощью мыши перетащите его на нужное место. Для копирования выделенного фрагмента при перетаскивании удерживайте нажатой клавишу CTRL.

Удаление текста

Можно удалить символ, слово, строку, фрагмент текста (строчный или блочный).

При этом удаление последнего введенного символа (т.е. символа, стоящего левее курсора) осуществляется при помощи клавиши BACKSPACE, а символа, следующего за курсором, — при помощи клавиши DELETE.

Удалению слова, строки, предложения или другого фрагмента текста предшествует предварительное выделение соответствующего фрагмента текста, а затем применение либо клавиши <Delete>, либо операции удаления. Место, занимаемое удаленным текстом, автоматически заполняется размещенным после него текстом

Прежде чем удалить фрагмент текста, подумайте!

Операции Отменить и Вернуть

В Word предусмотрена операция откатки. Для реализации этой операции текстовый процессор фиксирует последовательность действий по изменению текста в виде последовательных шагов. Специальной командой отмены (Undo) пользователь может вернуть документ к состоянию, которое было несколько шагов назад, т.е. "откатиться": Правка Отменить или кнопка Отменить, или CTRL+Z.

Глубина возможной откатки зависит от Среды, мощности используемого компьютера и других причин.

Наряду с командой откатки существует команда отмены откатки (Redo) - возврат: Правка Вернуть или кнопка Вернуть, или CTRL+Y.

Кроме того, каждое действие можно повторить (Правка Повторить) или отменить (Правка Отменить).

Форматирование текста

Операции форматирования включают в себя разбивку текста на строки (в рамках абзаца) и страницы, выбор расположения абзацев, отступов и интервалов между абзацами, обтекания отдельных абзацев, а также видов и начертаний шрифтов. Эти операции выполняются с разной степенью автоматизации. Например, разбивку на строки и страницы MS Word выполняет автоматически.

Форматирование текста — процедура оформления страницы текста. Форматирование документа позволяет:

изменять границы рабочего поля, определяя поля сверху, снизу, слева, справа;

устанавливать междустрочный интервал (разреженность строк на странице) и межсимвольный интервал в слове;

выравнивать текст —центрировать, прижимать к левой или правой границе, равномерно распределять слова в строке;

использовать разные шрифты и т. п.

Установка общих параметров страницы

Различают логическую и физическую страницы. Физическая страница (по размеру бумаги) обычно имеет некоторый стандартный размер, например 210х297 мм, а логическая страница образуется на поле физической за вычетом установленных пользователем границ (рис. 4). Количество данных на логической странице определяется, с одной стороны, плотностью печати (количеством знаков на строке), а с другой — разреженностью строк (интервалом между строками). Аналогично тому, как осуществляется жесткий и мягкий перевод каретки на новую строку, текстовый процессор осуществляет мягкий и жесткий переход на новую страницу.

Мягкий переход осуществляется автоматически после заполнения последней строки на странице. Однако пользователь может начать новую страницу, не дожидаясь ее окончательного заполнения, подав команду жесткого перехода (CTRL +ENTER).

Существует также команда запрета разрыва страниц, которая используется, когда вы хотите, чтобы определенная часть документа (например, таблица) находилась на одной странице. В этом случае вы должны поставить команду запрета разрыва страниц перед интересующей вас таблицей, чтобы предотвратить ее разрыв.

При разрыве абзаца обеспечивается контроль за так называемыми висячими строками (первая строка или заголовок нового абзаца, оказавшийся на последней строке страницы, или последняя строка абзаца, оказавшаяся в начале страницы). Размещение абзаца при его разрыве может регулироваться по-разному. Например, не менее двух строк в конце страницы и не менее трех строк в начале.

Рис. Соотношение логической и физической страниц

Модуль 1

Змістовний модуль3

Лекція 4 Підготовка та збереження офісної документації 4 год.

1. Збереження файлів офісної документації, архівування файлів, особливості роботи з програмами архіваторами програми WinRar, WinZip, WinArj.

2. Захист інформації від несанкціонованого доступу за допомогою паролів, недоліки та переваги парольного захисту.

3. Практична робота з програмами-архіваторами.

4. Вступ до комп'ютерної графіки, робота з програмами Paint, Visio Draws.

5. Автоматизація обробки офісних документів, програми-перекладачі.

6. Практична робота з програмами-перекладачами Рекомендована література: 4, 6-Ю, 22.

1.2. Інформаційні технології на платформі Windows Тема 5: Електронні таблиці — 2 год.

1. Роль та місце інформаційних технологій нам базі стандартних додатків MS Windows.

2. Електронні таблиці в складі інформаційних технологій.

3. Правила роботи з адресами ЕТ, виконання складних розрахунків, побудова діаграм та графіків, правила використання бібліотек вбудованих функцій.

4. Можливості імітаційного моделювання за допомогою ЕТ. Способи розширення можливостей ЕТ (бібліотеки Add-ins)

Рекомендована література: 23-32,

Даже в наш век CD/DVD-рекордеров и крупнокалиберных винчестеров, емкость которых уже измеряется десятками и даже сотнями гигабайт, проблема сжатия малоиспользуемой информации остается актуальной. Но при богатом выборе программ-архиваторов далеко не все из них работают действительно эффективно. В данной статье мы рассмотрим и протестируем наиболее популярные архиваторы и дадим свои рекомендации по их выбору.

Архиваторы – это программы для создания архивов. Архивы предназначены для хранения данных в удобном компактном виде. В качестве данных обычно выступают файлы и папки. Как правило, данные предварительно подвергаются процедуре сжатия или упаковки. Поэтому почти каждый архиватор одновременно является программой для сжатия данных. С другой стороны, любая программа для сжатия данных может рассматриваться как архиватор. Эффективность сжатия является важнейшей характеристикой архиваторов. От нее зависит размер создаваемых архивов. Чем меньше архив, тем меньше места требуется для его хранения. Для передачи нужна меньшая пропускная способность канала передачи или затрачивается меньшее время. Преимущества архивов очевидны, если учесть, что данные уменьшаются в размере и в 2 раза, и в 5 раз.

Сжатие данных используется очень широко. Можно сказать, почти везде. Например, документы PDF, как правило, содержат сжатую информацию. Довольно много исполняемых файлов EXE сжаты специальными упаковщиками. Всевозможные мультимедийные файлы (GIF, JPG, MP3, MPG) являются своеобразными архивами.

Основным недостатком архивов является невозможность прямого доступа к данным. Их сначала необходимо извлечь из архива или распаковать. Операция распаковки, впрочем, как и упаковки, требует некоторых системных ресурсов. Это не мгновенная операция. Поэтому архивы в основном применяют со сравнительно редко используемыми данными. Например, для хранения резервных копий или установочных файлов.

В данный момент существует много архиваторов. Они имеют разную распространенность и эффективность. Некоторые интересные архиваторы не известны широкому кругу потенциальных пользователей. Особый интерес представляют оценка и сравнение эффективности сжатия популярных архиваторов.

Методы сжатия

Сжатие информации - проблема, имеющая достаточно давнюю историю, гораздо более давнюю, нежели история развития вычислительной техники, которая (история) обычно шла параллельно с историей развития проблемы кодирования и шифровки информации. Все алгоритмы сжатия оперируют входным потоком информации, минимальной единицей которой является бит, а максимальной - несколько бит, байт или несколько байт. Целью процесса сжатия, как правило, есть получение более компактного выходного потока информационных единиц из некоторого изначально некомпактного входного потока при помощи некоторого их преобразования. Основными техническими характеристиками процессов сжатия и результатов их работы являются:

- степень сжатия (compress rating) или отношение (ratio) объемов исходного и результирующего потоков;

- скорость сжатия - время, затрачиваемое на сжатие некоторого объема информации входного потока, до получения из него эквивалентного выходного потока;

- качество сжатия - величина, показывающая на сколько сильно упакован выходной поток, при помощи применения к нему повторного сжатия по этому же или иному алгоритму.

Существует несколько различных подходов к проблеме сжатия информации. Одни имеют весьма сложную теоретическую математическую базу, другие основаны на свойствах информационного потока и алгоритмически достаточно просты. Любой способ подход и алгоритм, реализующий сжатие или компрессию данных, предназначен для снижения объема выходного потока информации в битах при помощи ее обратимого или необратимого преобразования. Поэтому, прежде всего, по критерию, связанному с характером или форматом данных, все способы сжатия можно разделить на две категории: обратимое и необратимое сжатие.

Под необратимым сжатием подразумевают такое преобразование входного потока данных, при котором выходной поток, основанный на определенном формате информации, представляет, с некоторой точки зрения, достаточно похожий по внешним характеристикам на входной поток объект, однако отличается от него объемом. Степень сходства входного и выходного потоков определяется степенью соответствия некоторых свойств объекта (т.е. сжатой и несжатой информации, в соответствии с некоторым определенным форматом данных), представляемого данным потоком информации. Такие подходы и алгоритмы используются для сжатия, например, данных растровых графических файлов с низкой степенью повторяемости байтов в потоке. При таком подходе используется свойство структуры формата графического файла и возможность представить графическую картинку приблизительно схожую по качеству отображения (для восприятия человеческим глазом) несколькими (а точнее n) способами. Поэтому, кроме степени или величины сжатия, в таких алгоритмах возникает понятие качества, т.к. исходное изображение в процессе сжатия изменяется, то под качеством можно понимать степень соответствия исходного и результирующего изображения, оцениваемая субъективно, исходя из формата информации. Для графических файлов такое соответствие определяется визуально, хотя имеются и соответствующие интеллектуальные алгоритмы и программы. Необратимое сжатие невозможно применять в областях, в которых необходимо иметь точное соответствие информационной структуры входного и выходного потоков. Данный подход реализован в популярных форматах представления видео и фото информации, известных как JPEG и JFIF алгоритмы и JPG и JIF форматы файлов.

Обратимое сжатие всегда приводит к снижению объема выходного потока информации без изменения его информативности, т.е. - без потери информационной структуры. Более того, из выходного потока, при помощи восстанавливающего или декомпрессирующего алгоритма, можно получить входной, а процесс восстановления называется декомпрессией или распаковкой, и только после процесса распаковки данные пригодны для обработки в соответствии с их внутренним форматом.

В обратимых алгоритмах кодирование как процесс можно рассматривать со статистической точки зрения, что еще более полезно, не только для построения алгоритмов сжатия, но и для оценки их эффективности. Для всех обратимых алгоритмов существует понятие стоимости кодирования. Под стоимостью кодирования понимается средняя длина кодового слова в битах. Избыточность кодирования равна разности между стоимостью и энтропией кодирования, а хороший алгоритм сжатия всегда должен минимизировать избыточность (напомним, что под энтропией информации понимают меру ее неупорядоченности.). Фундаментальная теорема Шеннона о кодировании информации говорит о том, что "стоимость кодирования всегда не меньше энтропии источника, хотя может быть сколь угодно близка к ней". Поэтому, для любого алгоритма, всегда имеется некоторый предел степени сжатия, определяемый энтропией входного потока.

Перейдем теперь непосредственно к алгоритмическим особенностям обратимых алгоритмов и рассмотрим важнейшие теоретические подходы к сжатию данных, связанные с реализацией кодирующих систем и способы сжатия информации.

Разработано большое количество разнообразных методов, их модификаций и подвидов для сжатия данных. Современные архиваторы, как правило, одновременно используют несколько методов одновременно. Можно выделить некоторые основные.

Кодирование длин серий (RLE - сокращение от run-length encoding - кодирование длин серий)

Очень простой метод. Последовательная серия одинаковых элементов данных заменяется на два символа: элемент и число его повторений. Широко используется как дополнительный, так и  промежуточный метод. В качестве самостоятельного метода применяется, например, в графическом формате BMP.

Словарный метод (LZ - сокращение от Lempel Ziv - имена авторов)

Наиболее распространенный метод. Используется словарь, состоящий из последовательностей данных или слов. При сжатии эти слова заменяются на их коды из словаря. В наиболее распространенном варианте реализации в качестве словаря выступает сам исходный блок данных.

Основным параметром словарного метода является размер словаря. Чем больше словарь, тем больше эффективность. Однако для неоднородных данных чрезмерно большой размер может быть вреден, так как при резком изменении типа данных словарь будет заполнен неактуальными словами. Для эффективной работы данного метода при сжатии требуется дополнительная память. Приблизительно на порядок больше, чем нужно для исходных данных словаря. Существенным преимуществом словарного метода является простая и быстрая процедура распаковки. Дополнительная память при этом не требуется. Такая особенность особенно важна, если необходим оперативный доступ к данным.

Энтропийный метод (Huffman - кодирование Хаффмена, Arithmetic coding - арифметическое кодирование)

В этом методе элементы данных, которые встречаются чаще, кодируются при сжатии более коротким кодом, а более редкие элементы данных кодируются более длинным кодом. За счет того, что коротких кодов значительно больше, общий размер получается меньше исходного.

Широко используется как дополнительный метод. В качестве самостоятельного метода применяется, например, в графическом формате JPG.

Метод контекстного моделирования (CM - сокращение от context modeling - контекстное моделирование)

В этом методе строится модель исходных данных. При сжатии очередного элемента данных эта модель выдает свое предсказание или вероятность. Согласно этой вероятности, элемент данных кодируется энтропийным методом. Чем точнее модель будет соответствовать исходным данным, тем точнее она будет выдавать предсказания, и тем короче будут кодироваться элементы данных.

Для построения эффективной модели требуется много памяти. При распаковке приходится строить точно такую же модель. Поэтому скорость и требования к объему оперативной памяти для упаковки и распаковки почти одинаковы. В данный момент методы контекстного моделирования позволяют получить наилучшую степень сжатия, но отличаются чрезвычайно низкой скоростью.

PPM (PPM - Prediction by Partial Matching - предсказание по частичному совпадению)

Это особый подвид контекстного моделирования. Предсказание выполняется на основании определенного количества предыдущих элементов данных. Основным параметром является порядок модели, который задает это количество элементов. Чем больше порядок модели, тем выше степень сжатия, но требуется больше оперативной памяти для хранения данных модели. Если оперативной памяти недостаточно, то такая модель с большим порядком показывает низкие результаты. Метод PPM особенно эффективен для сжатия текстовых данных.

Предварительные преобразования или фильтрация

Данные методы служат не для сжатия, а для представления информации в удобном для дальнейшего сжатия виде. Например, для несжатых мультимедиа данных характерны плавные изменения уровня сигнала. Поэтому для них применяют дельта-преобразование, когда вместо абсолютного значения берется относительное. Существуют фильтры для текста, исполняемых файлов, баз данных и другие.

Метод сортировки блока данных (BWT - сокращение от Burrows Wheeler Transform - по имени авторов)

Это особый вид или группа преобразований, в основе которых лежит сортировка. Такому преобразованию можно подвергать почти любые данные. Сортировка производится над блоками, поэтому данные предварительно разбиваются на части. Основным параметром является размер блока, который подвергается сортировке. Для распаковки данных необходимо проделать почти те же действия, что и при упаковке. Поэтому скорость и требования к оперативной памяти почти одинаковы. Архиваторы, которые используют данный метод, обычно показывают высокую скорость и степень сжатия для текстовых данных.

Непрерывные блоки или непрерывный режим (Solid mode - непрерывный режим)

Во многих методах сжатия начальный участок данных или файла кодируется плохо. Например, в словарном методе словарь пуст. В методе контекстного моделирования модель не построена. Когда количество файлов большое, а их размер маленький, общая степень сжатия значительно ухудшается за счет этих начальных участков. Чтобы этого не происходило при переходе на следующий файл, используется информация, полученная исходя из предыдущих файлов. Аналогичного эффекта можно добиться простым представлением исходных файлов в виде одного непрерывного файла.

Этот метод используется во многих архиваторах и имеет существенный недостаток. Для распаковки произвольного файла необходимо распаковать и файлы, которые оказались в начале архива. Это необходимо для правильного заполнения словаря или построения модели. Существует и промежуточный вариант, когда используются непрерывные блоки фиксированного размера. Потери сжатия получаются минимальными, но для извлечения одного файла, который находится в конце большого архива, необходимо распаковать только один непрерывный блок, а не весь архив.

Сегментирование

Во всех методах сжатия при изменении типа данных собственно сам переход кодируется очень плохо. Словарь становится не актуальным, модель настроена на другие данные. В этих случаях применяется сегментирование. Это предварительная разбивка на однородные части. Затем эти части кодируются по отдельности или группами.

Особо хочется подчеркнуть, что существует большое количество методов сжатия. Каждый метод обычно ориентирован на один вид или группу реальных данных. Хорошие результаты показывает комплексное использование методов. Более подробно с методами сжатия можно ознакомиться, например, на www.compression.ru.

Особенности данных

Степень сжатия в основном зависит от исходных данных. Хорошо сжимаются почти все предварительно несжатые данные, например, исполняемые файлы (EXE), тексты (TXT, DOC), базы данных (DBF), простые несжатые изображения (BMP). Ограниченно сжимаются несжатый звук (WAV), сложные несжатые изображения (BMP). Не сжимаются почти все уже сжатые данные, например, архивы (ZIP, CAB), сжатые документы (PDF), сжатая графика и видео (JPG, GIF, AVI, MPG), сжатый звук (MP3). Их сжатие находится в пределах пары процентов за счет служебных блоков и небольшой избыточности.

Для сжатия некоторых специфических данных (текст, несжатые изображения, несжатый звук) существуют специальные методы и архиваторы. Такие архиваторы обеспечивают высокую степень сжатия и высокую скорость. Однако так называемые универсальные архиваторы постепенно дополняются подобными методами. В данный момент только для несжатого звука существуют высокоэффективные специальные архиваторы, такие, как OptimFROG, Monkey Audio. Для текстов и изображений лучшие универсальные архиваторы показывают лучшую степень сжатия. Например, архив изображений получится меньше, если использовать формат BMP и архиватор WinRK вместо специализированных графических форматов, таких как JPEG2000 (LossLess - сжатие без потерь).

Большое количество типов данных уже являются сжатыми. Использование архиваторов дает мизерное уменьшение размера. Тем не менее даже в таких случаях эффективное сжатие теоретически возможно. Это обусловлено тем, что в большинстве распространенных форматов файлов, использующих сжатие, применены не самые эффективные методы. Например, в основе формата JPG лежит энтропийное сжатие, которое используется после преобразований Фурье. Данные кодируются неоптимальными блоками, что обусловлено желанием сделать формат JPG устойчивым к повреждениям и возможности частичного извлечения информации. Перекодировав файлы JPG при помощи высокоэффективных методов, можно добиться сжатия порядка 75% от исходного файла (архиватор StuffIt). Собственно сам исходный файл JPG сжимается обычными архиваторами только до 96%. Однако подобные манипуляции с файлами JPG стали возможны только недавно и еще не получили распространения. В большинстве случаев сжимать уже сжатые данные бесполезно.

Какие существуют архиваторы и чем они отличаются?

Следует различать собственно программу-архиватор, формат архивов и методы сжатия. Даже один и тот же метод сжатия может иметь варианты реализации. Например, существует более десятка программ-архиваторов, которые могут создавать архивы в формате ZIP. В свою очередь данные в формате ZIP могут быть сжаты различными методами: Deflate, Deflate64, BZip2. Метод Deflate имеет несколько реализаций с разной скоростью и степенью сжатия (разница порядка 5%). С помощью этого метода архиватор 7-zip позволяет создавать архивы в формате ZIP и 7Z.

Обычно архиваторы могут создавать архивы в собственном эксклюзивном формате с использованием своих оригинальных методов. Например, архиватор RAR позволяет создавать архивы RAR. В формате архива и методах сжатия заключаются основные преимущества того или иного архиватора.

В простейшем случае архиватор позволяет только упаковать или распаковать один файл. Кроме собственно сжатия данных, современные архиваторы обеспечивают некоторые дополнительные функции. Можно выделить несколько основных:

  • сжатие некоторых файлов и целых директорий;

  • создание самораспаковывающихся (SFX) архивов. То есть для распаковки архива программа-архиватор не требуется;

  • изменение содержимого архива;

  • шифрование содержимого архива;

  • информация для восстановления архива при частичном повреждении и возможность восстановления поврежденных архивов;

  • разбивка архива на несколько частей или томов;

  • консольная версия программы для работы из командной строки;

  • графическая (GUI) версия программы.

Стоит отметить, что, несмотря на формальное наличие, реализация каждой дополнительной функции может быть выполнена на совершенно разном уровне.

Кроме различий в функциональности, можно разбить архиваторы на две группы: асимметричные и симметричные. Асимметричные архиваторы требуют для операции распаковки значительно меньше времени и оперативной памяти, чем для операции упаковки. Это позволяет быстро получать содержимое архива на маломощных компьютерах. Симметричные архиваторы требуют для операций упаковки и распаковки одинаковое время и объем оперативной памяти. Использование таких архиваторов на широком парке компьютеров или для оперативного доступа к содержимому архива ограничено. Известный архиватор RAR в качестве основного использует асимметричный словарный метод сжатия, а для текстов может использовать симметричный PPM-метод. Таким образом, распаковка архивов RAR, сжатых с максимальной степенью сжатия, может быть невозможна на компьютерах с ограниченным объемом оперативной памяти. Все или почти все передовые архиваторы с высокой степенью сжатия являются симметричными.

Точной статистики по распространенности архиваторов у меня нет. Я выскажу свою субъективную точку зрения на основе личного опыта. Безусловно, самым распространенным архиватором являются ZIP и его модификации. По своей распространенности он значительно превосходит ближайших конкурентов. Следом идут RAR и ACE. В последние годы встречается архиватор 7-zip. Других архиваторов и архивов лично мы не встречали. Исключение составляют некогда популярные ARJ и LHA. В данный момент они не актуальны из-за очень низкой степени сжатия.

Несмотря на очень скромные данные о распространенности архиваторов, их существует большое множество. Основная масса относится к категории экспериментальных и архиваторов с ограниченной функциональностью. Тем не менее каждый их них позволяет выполнять собственно процедуру сжатия данных. Меньшая распространенность увеличивает вероятность ошибок в программе. К ним стоит относиться с некоторой осторожностью. Например, при проведении тестирования была найдена ошибка в архиваторе WinRK (PWCM), которую, однако, оперативно исправили.

Тестирование максимальной степени сжатия

В данном тестировании главной целью было определить лучший по степени сжатия архиватор. Скорость сжатия была второстепенна.

Для разностороннего тестирования и выявления сильных и слабых сторон использовалось несколько наборов данных, требующих различных подходов и методов для хорошего сжатия. Их размер выбран достаточно большим, чтобы архиваторы с большим размером словаря или более эффективно использующие оперативную память могли показать свое преимущество. В сжатом при помощи ZIP виде они занимают размер в районе 15 MB.

Для каждого набора данных обычно можно подобрать наиболее оптимальные параметры сжатия. Однако в этом тестировании для всех наборов данных использовались единые параметры и методы, дающие в среднем лучшие результаты исходя из наличия 512 MB оперативной памяти. Такой подход является компромиссным. С одной стороны, можно оценить эффективность на разных типах данных, хотя некоторые архиваторы и не покажут максимальной степени сжатия. С другой стороны, в реальности приходится сжимать целые папки с разнообразными данными, а специфические значения параметров могут влиять как положительно, так и отрицательно на сжатие данных в целом. Кроме того, подбор оптимальных параметров не так прост, занимает много времени и в реальной жизни выполняется редко.

Стоит подчеркнуть, что выбор исходных данных очень сильно влияет на результаты тестирования. Например, при использовании текстовых (TXT,HTML,DOC,LOG) и мультимедиа (WAV) данных архиватор 7-zip (LZMA) покажет худшие результаты, чем RAR, который имеет специальные методы для таких типов данных. Использование несжимаемых данных (JPG, PDF) покажет мизерную разницу между архиваторами с плохой и хорошей степенью сжатия. Кстати, многие файлы могут содержать как сжимаемую информацию, так и не- сжимаемую. В том числе файлы в формате DOC и PDF.

Сильное влияние оказывает и подбор оптимальных параметров сжатия. Например, по данным www.maximumcompression.com, используещего оптимальные параметры сжатия для каждого набора данных, разница между 7-zip и RAR около 3%, что значительно меньше разницы, полученной в данном тестировании.

Тестовая система

Тестирование производилось на системе: процессор - Athlon XP 2800+, оперативная память - 512 MB.

Набор данных

Данные

Размер

Сжатие ZIP

Содержание

bak

54.4 MB, 13 файлов

22.6%

Набор резервных копий. Резервные копии конфигураций (настроек) 1С:Предприятие. Размер файлов от 3 MB до 9 MB. Файлы имеют блочную структуру (compound) и содержат довольно много похожих и одинаковых блоков.

dat

41.5 MB, 4 файла

35.9%

Сложный набор разнообразных данных. Файлы, содержащие информацию об игровых уровнях (картах) в играх Half-Life 2 и UnrealTurnament 2003.

dbf

69.1 MB, 8 файлов

15.3%

Файлы баз данных. Файлы таблиц из юридической программы и базы данных 1С:Предприятие небольшого предприятия.

exe

25.3 MB, 3 файла

49.8%

Исполняемые файлы. Исполняемый файл из игры Half-Life 2, а так же динамическая библиотека и исполняемый файл из пакета MS Office XP.

txt

41.4 MB, 472 файла

24.9%

Текстовые файлы. Текстовые файлы в формате HTML на русском языке (16.5 MB), исходные коды на языках программирования JAVA, Delphi, Python (24.8 MB). Размер файлов от 20 MB.

Сжатие данных: обзор архиваторов

Но вначале несколько слов о том, насколько эффективно сжимаются файлы различных форматов. Очень хорошо архивируются графические файлы в формате *.bmp (на 80--85%) и документы MS Office (в среднем на 60%), немного хуже -- Web-страницы (40--50%). Для исполняемых файлов этот показатель варьируется (~50% в зависимости от архиватора) и в большинстве случаев довольно низкий, так как они обычно уже сжаты программистами с помощью специальных утилит вроде UPX или ASPack. Архивирование практически не влияет на размер сжатых файлов (графические файлы в формате *.gif и*.jpg, DivX-фильмы, образы CD и т. д.). Реальный интерес для пользователя представляет компрессирование только офисных документов и сохраненных Web-страниц, а фильмы и фотоальбомы намного проще записать на CD/DVD -- экономия времени и места на винчестере будет на два порядка выше, чем при попытке их заархивировать. Что же касается игровых демо-версий/программ, то лучший способ их хранения -- в виде созданных разработчиками инсталляционных файлов, которые намного удобнее и практичнее, нежели самодельный архив, пусть даже и на 20% меньший по размеру.

WinZip 9.0 Beta 3

Разработчик -WinZip Computing

Web-сайт: www.winzip.com

Классический пример несоответствия "дутой" популярности и результативности работы. Несмотря на то что WinZip уже который год подряд -- один из лидеров по количеству загрузок на сайте Download.com, программа архивирует хуже некуда (см. врезку) и по всем параметрам является несомненным аутсайдером. Из немногочисленных плюсов этого архиватора следует отметить лишь довольно высокую скорость работы да просто невероятную популярность формата *.zip среди пользователей. Именно благодаря последнему WinZip де-факто стал стандартом в данной области, и на него равняются все другие архиваторы.

Новая, девятая по счету версия WinZip, находящаяся в состоянии перманентной беты, наконец-то обзавелась улучшенным алгоритмом сжатия enhanced deflate и новой, 128- и 256-битной технологией шифрования архивов. И если толку от первого маловато (выигрыш составляет считанные доли процента), то второе нововведение является огромным шагом вперед -- предыдущая защита архивов Zip 2.0 "взламывалась" буквально с полпинка. Естественно, в обоих случаях на ПК адресата должна быть установлена 9-я версия WinZip либо последние обновления альтернативных архиваторов -- ни о какой обратной совместимости речь уже не идет.

WinZip весьма ограничен в поддержке других форматов: кроме самого Zip, программа может распаковывать CAB, Microsoft Compress, GZip, TAR, UUencode, XXencode, BinHex и MIME, а после подключения внешних программ -- еще и ARC, ARJ и LZH. Полностью (чтение и компрессия) поддерживается лишь Zip. Да, просто великолепная интеграция этого архиватора с Windows заслуживает высших оценок, равно как и множество других функций вроде автоматической инсталляции ПО из архивов, проверки их на наличие вирусов с помощью любого установленного в системе антивируса и т. д. Однако все это не может "перекрыть" его недостатки -- в частности, неэффективный алгоритм работы. Чего уж тут говорить, если даже программы от сторонних разработчиков, для которых Zip является отнюдь не основным форматом, зачастую архивируют в него лучше, чем сам WinZip!

Параметры, влияющие на качество сжатия

Для самого эффективного сжатия данных недостаточно выбрать в архиваторе лишь пункт меню "Максимальное". Существует еще много дополнительных параметров, которые иногда обеспечивают двукратный выигрыш в компрессии. Здесь мы рассмотрим их на примере одного из самых эффективных архиваторов -- WinRar.

WinAce 2.5

Разработчик: ACE Compression Software & e-merge GmbH

Web-сайт: www.winace.com

До выхода третьей версии WinRAR именно WinAce удерживал пальму первенства среди архиваторов по качеству сжатия данных. Набор функций в программе очень и очень неплох: полная поддержка ACE, ZIP, LHA, MS CAB, Java JAR, GZip, TAR, GZipped TAR и частичная (только распаковка) RAR, ARC, ARJ, BZip2 и ISO-образов. Кроме того, WinAce позволяет создавать многотомные архивы в форматах ACE, ZIP и CAB. Для улучшения сжатия графических и звуковых, равно как и исполняемых (*.ехе) файлов, в архиваторе реализованы дополнительные алгоритмы мультимедиакомпрессии, а для всех остальных типов данных -- дельта-сжатие. Изюминкой этого архиватора является встроенный просмотрщик множества по-пулярных форматов графических файлов, HTML-страниц и ASCII-файлов (в кодировке DOS). Естественно, поддерживаются и создание непрерывных архивов (подробнее см. вставку), что проявляется в дополнительной (до 50%!) экономии места, большой размер словаря (до 4 MB), проверка на целостность всех знакомых программе форматов, "ремонт" ACE и ZIP-архивов и многое другое. Кроме того, можно конвертировать архивы различных форматов в АСЕ для уменьшения их размера, а с помощью внешнего модуля SFX-Factory даже создавать инсталляции на их основе. Добавьте к этому отличную интеграцию WinAce с оболочкой Windows, автоматическую инсталляцию программ из архивов -- и этот архиватор получает заслуженные 5 баллов. К сожалению, формат ACE мало распространен среди пользователей, и в ближайшее время ему не грозит стать "убийцей" ZIP, но у него еще все впереди...

PowerArchiver 2003 v.8.70

Разработчик: ConeXware

Web-сайт: www.powerarchiver.com

Первое, что приходит в голову при знакомстве с этой программой: "Вот так и должен выглядеть WinZip!". PowerArchiver "знает" 17 различных форматов архивов, причем полностью (упаковка/распаковка) поддерживаются Zip, BH (BlackHole), Tar, Lha и Cab, распространенные в Internet форматы файлов UUencode, XXencode, Base64(MIME) и yENC, а остальные (RAR, Arj. Arc, Ace, Zoo, GZip, BZip2) могут только читаться/распаковываться. Встроенный вьювер позволяет "на лету" просматривать TXT, RTF и все популярные форматы графических файлов прямо в архиве, а менеджер FTP-соединений -- тут же загружать скомпрессированные данные на FTP-серверы. Кроме того, Power-Archiver предлагает пользователю 5 различных методов шифрования особо секретных данных и новый алгоритм сжатия Deflate64, которым недавно обзавелся и WinZip 9.0.

Остальной набор функций стандартен: конвертирование различных архивов в Zip, Cab, Lha, BH и Tar (т. е. те, которые полностью поддерживаются программой), отличная интеграция с Windows, возможность создания многотомных Zip-архивов и множество других. Особой гордостью авторов программы является то, что она получила сертификат от Microsoft как ПО, оптимизированное под Windows XP, со всеми вытекающими отсюда "последствиями", а именно -- поддержкой тем Windows XP и "шкур" популярной программы для переделки интерфейса этой ОС, WindowBlinds. Да и сам PowerArchiver может похвастаться массой собственных скинов, призванных полностью изменить его внешний вид. Таким образом, программа оставляет приятное впечатление, но если бы ей еще поддержкой RAR обзавестись...

WinRAR 3.30

Разработчик: Евгений Рошаль

Web-сайт: www.rarlabs.com

Лучший архиватор для Windows не нуждается в особой рекламе -- с такими потрясающими результатами работы популярность ему обеспечена. Итак, WinRAR позволяет распаковывать архивы CAB, ARJ, LZH, TAR, GZip, ACE, UUE, BZ2, JAR и ISO-образы, а компрессия данных возможна в форматы ZIP и RAR. Размер архивов практически не ограничен и составляет на сегодня 9000 петабайт (1018 байт) -- напомним, что в WinZip он до недавнего времени был равен 4 GB. Кроме того, поддер-живаются права доступа и потоки данных в файловой системе NTFS, что дополнительно улучшает процессы создания и распаковки архивов. Очень высокий выигрыш в размере (10--50%), особенно при архивировании большого количества малых файлов, получается при использовании опции создания непрерывных (solid) архивов; не последнюю роль в компрессии данных играет и большой размер словаря (см. во врезке). Разумеется, присутствует и возможность создания многотомных, а также самораспаковывающихся архивов, защита их паролями, блокировка архивов для предотвращения их изменений в будущем и т. д. В новой версии программы появилась опция "проверить архив на вирусы". Ну а для новичков, делающих первые шаги в ознакомлении с программным обеспечением своего ПК, предназначен режим Wizard, с помощью которого буквально в одно касание производятся все операции над архивами.

Но этим отнюдь не ограничиваются все возможности WinRAR. За кадром остались конвертирование не-RAR архивов в RAR, проверка их на вероятные ошибки, широчайшие возможности консольной версии, местные аналоги папки Избранное, удобный интерфейс... Заслуженный "Выбор редакции"!

7Zip 3.13

Разработчик: Игорь Павлов

Web-сайт: www.7zip.org

Этот малоизвестный архиватор от российских разработчиков стал самой приятной неожиданностью данного теста. Качество архивирования данных у собственного формата *.7z просто поражает: 7-Zip опережает даже WinRAR, что уж говорить о WinZip... Причиной тому -- более совершенный алгоритм сжатия и практически неограниченный объем словаря (до 192 MB), которые благотворно влияют на эффективность компрессии данных. То же касается и архивирования в Zip, где 7-Zip снова проявил себя с лучшей стороны, иногда даже выигрывая у эталона (WinZip 9.0) на пару процентов. Неудивительно, что встроенный в программу бенчмарк успешно используется многими независимыми тестовыми лабораториями для измерения производительности новых процессоров.

Правда, есть и обратная сторона медали -- невероятно медленная работа 7-Zip, которая наверняка отпугнет от него многих пользователей. Не в последнюю очередь это обусловлено величиной словаря -- чем он больше, тем выше требования программы к оперативной памяти ПК и процессору. Интерфейс у 7-Zip аскетичный, но особых нареканий не вызывает. Кроме Zip и 7z, полностью поддерживаются Tar, GZip, BZip2, а частично (только распаковка) -- RAR, Cab, Arj и др. К сожалению, данный архиватор пока не научился работать с многотомными архивами, да и с популярностью среди пользователей у него пока некоторые проблемы. С другой стороны, все это никак не мешает использовать программу по ее прямому назначению -- сжатию больших объемов малоиспользумых данных. И надо сказать, трудно найти архиватор, который лучше справится с этой задачей. Вот еще бы скорость работы увеличить....

Итак, непрерывный (solid) архив. В этом случае все данные будут архивироваться в виде одного большого файла. Это значительно (теоретически до 50%) увеличивает эффективность сжатия информации, но данный метод имеет и свои недостатки. Так, распаковка одного или нескольких файлов из такого архива займет значительно больше времени, чем из обычного. Например, если архив состоит из 100 файлов, а требуемый файл является 90м по списку, то программа вынуждена открыть все 89 предыдущих.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]