Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3.Физическая Организация Баз Данных.pdf
Скачиваний:
27
Добавлен:
20.02.2016
Размер:
448.66 Кб
Скачать

Лекции / Сжатие данных

Технологии баз данных и знаний

 

 

 

 

 

 

 

 

 

 

 

Главная

Типовая

Лекции

Практикум

Индивидуальные

Заочникам

Экзамен/зачет

Тесты

 

 

программа

задания

 

 

 

 

 

 

 

 

 

 

 

ЛЕКЦИИ

Лекция на тему

ФИЗИЧЕСКАЯ ОРГАНИЗАЦИЯ БАЗ ДАННЫХ

Разработчик: ст. преподаватель Черепица Л.С.

План лекции

1.Физический доступ к базе данных

2.Индексирование и хеширование

3.Сжатие данных Литература Глоссарий

&

3.СЖАТИЕ ДАННЫХ

3.1.Технология сжатия: сжатие на основе различий, иерархическое сжатие

Сжатие базы данных отличается от сжатия с помощью архиваторов и состоит в освобождении места на диске от удаленных объектов базы данных и записей таблиц. В СУБД Access сжатие базы данных выполняется командой Сервис/Служебные программы/ Сжать. Далее в диалоговом окне необходимо выбрать базу данных для сжатия и подтвердить сжатие.

Внесение изменений в БД (добавлении объектов и записей) приводит к увеличению объема файла. При удалении пользователем из файла БД записей таблиц и объектов БД занимаемый объем памяти не освобождается, а отмечается как неиспользуемый. Последовательное создание и удаление таблиц, а также объектов базы данных приводит к увеличению ее размеров. Чтобы файл БД не был перегружен неиспользуемыми областями, его необходимо периодически сжимать.

Технологии сжатия основаны на вероятности того, что данные имеют упорядоченную структуру. Данные технологии применяется для экономии пространства на диске, необходимого для хра уменьшается количество дисковых операций ввода-вывода, связано это с тем, что доступ к данным меньшего размера требует мень для распаковки и извлечения сжатых данных требуются некоторые дополнительные манипуляции, но в целом преимущества со компенсировать недостатки, связанные с дополнительной обработкой данных.

Используются следующие технологии сжатия данных в базах данных:

§сжатие на основе различий;

§иерархическое сжатие;

§кодирование Хаффмана.

Наиболее распространенной является технология сжатия на основе различий.

http://www.bseu.by/it/tohod/lekcii3_3.htm[17.05.2013 13:07:51]

Лекции / Сжатие данных

Данная технология предусматривает замену некоторого значения сведениями о его

отличиях от предыдущего значения. Для реализации такой технологии требуется размещать данные последовательно, поскольку для их распаковки необходимо иметь значение предыдущей величины. Такое сжатие эффективно для данных, к которым необходим последовательный доступ, например для записей в одноуровневом списке. В таких случаях наряду с данными допускается сжать и указатели. Если логическая последовательность в файле соответствует физической последовательности размеще данных на диске, то соседние указатели будут незначительно отличаться друг от друга, а значит, сжатие указателей может оказаться эффективным.

Один из способов применения сжатия на основе различий – это удаление повторяющихся символов в начале каждой записи с указанием их количества, т. е. переднее сжатие.

При необходимости можно осуществить дополнительное сжатие, удаляя пробелы с указанием их количества, т. е. выполнить так называемое заднее сжатие. Иногда еще допускается удаление с правого конца каждого значения всех повторяющихся символов в двух ближайших соседних значениях.

Следующим способом уменьшения объема занимаемого данными места является

иерархическое сжатие.

При иерархическом сжатии учитывается следующее. Хранимая иерархическая запись состоит из двух частей: постоянной и переменной. Набор значений переменного количества внутри одной записи называется группой повторения. Иерархическое сжатие применяют и для индекса, в котором несколько последовательно расположенных

значений содержат одни и те

же повторяющиеся

значения данных,

но раз

значения указателей.

 

 

 

 

 

Аналогичным

образом

можно

применять

иерархическое

сжа

межфайловой кластеризации.

3.2. Кодирование Хаффмана

Кодирование Хаффмана - это технология кодиро быть эффективной для сжатия различных символов, встречающихся с разной часто Основная идея этой технологии заключается в кодировании отдельных символов битовыми строками различной длины, причем наиболее часто встречающиеся символы кодируются строками наименьшей длины. Кроме того, код любого символа длиной n не должен совпадать с первыми n символами кода какого-либо другого символа.

Предположим, что некоторые данные написаны с помощь символов А, Б, В, Г, Д, тогда с учетом относительной частоты с которой эти символы встречаются, у них различные коды (табл. 1).

Таблица 1

 

Коды символов

 

 

 

 

 

Символ

Частота, %

 

Код

 

 

 

 

А

35

 

1

 

 

 

 

В

30

 

01

Г

20

 

001

Д

10

 

0001

Б

5

 

0000

 

 

 

 

Символ А встречается чаще остальных, и потому имеет самый короткий код,

http://www.bseu.by/it/tohod/lekcii3_3.htm[17.05.2013 13:07:51]

Лекции / Сжатие данных

состоящий из одного бита. Все остальные коды должны быть длиннее, однако нельзя

использовать код на основе одного нуля, так как он будет совпадать с начальной частью других, более длинных кодов. Оценочно можно сказать, что в сред закодированного текста на 40% меньше, чем при отсутствии кодирования.

© Минск БГЭУ, 2005 - 2011

http://www.bseu.by/it/tohod/lekcii3_3.htm[17.05.2013 13:07:51]

Лекции / Литература

Технологии баз данных и знаний

 

 

 

 

 

 

 

 

 

 

 

Главная

Типовая

Лекции

Практикум

Индивидуальные

Заочникам

Экзамен/зачет

Тесты

 

 

программа

задания

 

 

 

 

 

 

 

 

 

 

 

ЛЕКЦИИ

Лекция на тему

ФИЗИЧЕСКАЯ ОРГАНИЗАЦИЯ БАЗ ДАННЫХ

Разработчик: ст. преподаватель Черепица Л.С.

План лекции

1.Физический доступ к базе данных

2.Индексирование и хеширование

3.Сжатие данных Литература Глоссарий

&

ЛИТЕРАТУРА

1.Хомоненко А.Д., Цыганков В.М., Мальцев М.Г. Базы данных: Учебник для высших учебных заведений / Под ред.проф. А.Д. Хомоненко. – Издание второе, дополненное и переработанное – СПб.: КОРОНА принт, 2002. – 672 с.

2.Базы данных: модели, разработка, реализация / Т.С. Карпова – СПб.: Питер, 2002. –

304 с.

3. Глушаков С.В., Ломотько Д.В. Базы данных: Учебный курс/ Харьков: Фолио; Ростов н/Д: Феникс; Киев: Абрис, 2000. – 504 с.

4. Гэри Хансен, Джеймс Хансен. Базы данных: разработка и управление: Пер с англ. – М.: ЗАО «Издательство БИНОМ», 2000. – 704 с.

5. http://www.mka.ru

© Минск БГЭУ, 2005 - 2011

http://www.bseu.by/it/tohod/lekcii3_literatura.htm[17.05.2013 13:07:58]

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]