- •Введение в технологии баз данных и знаний план
- •1. Предмет и содержание дисциплины. Ее связь с другими дисциплинами.
- •Аннотация
- •1. Предмет и содержание дисциплины «технологии баз данных и знаний» и ее связь с другими дисциплинами
- •2. Экономическая информация 2.1. Структурные единицы экономической информации
- •2.2. Измерение объема экономической информации
- •3. Экономические информационные системы
- •4. Внемашинная организация экономической информации
- •4.1. Классификация экономической информации
- •4.2. Кодирование экономической информации
- •4.3. Штрих код
- •5. Внутримашинная организация данных 5.1. Файловая организация данных
- •5.2. Понятие базы данных
- •5.3. Приложения базы данных
- •5.4. Компоненты базы данных
- •5.5. Базы данных, имеющиеся в Республике Беларусь
2.2. Измерение объема экономической информации
Измерение объемов экономической информации имеет большое значение при ее обработке. От объема информации зависит потребность в кадрах, распределение ее обработки по календарным периодам, составление графика обслуживания пользователей, а также выбор типа и модели вычислительной техники.
Любая единица измерения объема информации должна быть простой и удобной, наиболее полно отражать информационные процессы, способствовать изучению информационных взаимосвязей и взаимозависимостей отдельных задач. Объем экономической информации принято рассчитывать с помощью измерителей трех видов: носителей информации, структурных информационных единиц, символов.
Использование носителей информации в качестве измерителей объема удобно тогда, когда информация предварительно переносится на технический носитель. Измерение объема в носителях носит условный характер, так как технические носители даже одного типа, например, диски, содержат разное количество символов.
В качестве единицы информации используют также составные единицы информации - СЕИ. Практика документирования хозяйственных операций заставляет использовать такие СЕИ как документ и документо- строка.
Для измерения объемов информации используют и такие единицы, как реквизиты и показатели. Именно к ним можно свести любые структурные единицы информации. Объем информации в структурных единицах информации определяется по форме и значению. Для определения объема по форме используется следующая формула:
F = Z + C,
где Z и С - количество форм реквизитов соответственно в заголовочной и содержательной частях документа.
Для определения объема информации по содержанию используется формула:
S = Z + C*n,
где Z и С - количество значений реквизитов соответственно в заголовочной и содержательной частях документа; n - количество строк в документе.
Неудобством этого метода измерения объема является то, что как реквизиты, так и показатели в разных СЕИ имеют разную длину. Значит, измерение объемов в этом смысле носит условный характер.
Измерение объема в символах является наиболее универсальным, потому что в этих единицах можно измерить объем любой информации. Так как символы выполняют функции синтаксических единиц, то такую меру данных называют синтаксической.
В связи с применением ЭВМ, работающих в двоичной системе счисления, в качестве единицы измерения информации стали использовать двоичный разряд - бит. А поскольку 8 битов образуют байт, а 1024 байта - 1 килобайт, то информацию стали измерять в байтах и килобайтах, а затеи и в мегабайтах, гигабайтах, терабайтах, петабайтах.
Объем информации в символах определяется по формуле:
S=Z+C,
где Z - количество знаков в заголовочной части документа;
С - количество знаков в содержательной части документа.
Таким образом, объем информации в зависимости от целей исследования может быть измерен количеством документов, СЕИ, количеством показателей, количеством реквизитов с указанием их значимости в символах. Для всестороннего исследования структуры информации отдельных подсистем ЭИС необходим весь комплекс измерений ее объема. Так, измерение объема в документах необходимо, во-первых, для анализа документооборота. Во-вторых, на практике информация чаще всего фиксируется в документах, и обработке подвергается документированная информация. В- третьих, потому, что не зная количества документов, мы не сможем вычислить и количество реквизитов и символов.
Использование показателя оправдано тем, что измерять и анализировать информацию удобно, расчленяя ее на показатели, ибо более крупные информационные совокупности содержат элементы с разной характеристикой. Выделение показателей удобно и для выбора правильной внутренней структуры документа. К недостаткам же измерения объемов в показателях относится существенное завышение объемов представления информации.
Методы расчета количества информации должны позволять оценить объективно существующий поток экономической информации, который не зависит от используемых в данной системе форм документов. В этом случае наиболее удобно измерять объем информации в количестве реквизитов и символов. Это позволяет также правильно выбрать носители информации.
Как уже говорилось, каждую единицу информации (исключая символ) можно рассматривать со стороны ее формы, то есть наименования, и со стороны содержания, то есть конкретного значения данного наименования. В конечном счете, состав по форме характеризует разнообразие используемых сведений, а состав по содержанию - объем информации.
Имеется свой подход в измерении объемов информации в теории информации. Теория информации представляет собой как математическую, так и естественно научную дисциплину, включающую в себя различные области знания: некоторые приложения математической статистики, теории игр, распознавания образов и др. Основы теории информации были заложены в 1948-1949г.г. работами видного американского математика К.Шеннона. Большой вклад внесли в нее и русские математики А.Колмогоров и А. Хинчин, а также ученые-радиотехники В.Котельников и А. Харкевич.
В теории информации количество информации определяется как мера уменьшения неопределенности в знании некоторого события. В 1928г. Р.Хартли предложил измерять эту неопределенность величиной X = Log2 N,
где N - число равновозможных исходов события. При этом если использовать логарифм с основанием 2, то информация будет измеряться в двоичных единицах (битах).
В 1948 году К.Шеннон обобщил эту меру неопределенности на случай N исходов с разными вероятностями:
N
X = -£P(X)* Log2P(Xt)
i=1
где P(Xi) - вероятность исхода события Xi.
Нетрудно заметить, что формула Шеннона в случае N равновероятных исходов, то есть когда P(Xi)=1/N, превращается в формулу Хартли:
N
£ P( Xi )* Log 2 P( Xi) =
i=1
= P(X!) * Log2 P(X!) + P(X2) * Log2 P(X2) + Л + P(Xn) * Log2 P(Xn) =
=Log 2 N+N7*Log 2 N+Л Log 2 N=
N*r 1
= — * Log2— = N N
= Log21 - Log2 N = 0 - Log2 N = -Log 2 N; то есть Х = Log2 N.
Поясним приведенную выше формулу для двух событий. В этом случае единицей информации является ее количество, содержащееся в сообщениях о наступлении одного из двух равновероятностных исходов, имевших место в какой-либо системе, и вычисленное как сумма вероятностей при двоичном основании логарифмов:
ТЛ / 1 r 1 1 г 1ч 1
V = -(2 Log 22+2 Log 2 2) =1
Эта единица информации получила название бита (при других основаниях логарифмов могут быть получены другие единицы информации, например, при основании, равном 10, единица информации будет «дит»).
Рассмотрим для разъяснения этой единицы такой пример. Допустим, что продукцию некоторого предприятия покупают два других предприятия с равной вероятностью Однако, не известно, какой именно покупатель приобретает конкретную партию продукции. Извещение, что одно из предприятий приобрело продукцию, несет единицу информации - бит. Следовательно, после завершения события (приобретения конкретной партии продукции) вероятность состояния системы (закупка продукции предприятиями) достигнет единицы:
P = Log2(1: 2) = Log22 = 1 бит
Диапазон изменения значений вероятности в системах из двух исходов находится в пределах от нуля до единицы. Причем событие невозможное обладает нулевой вероятностью, а событие непременное - вероятностью, равной единице. Сообщение несет тем большее количество информации, чем значительнее изменяется величина вероятности с наступлением события в сравнении с первоначально ожидаемой величиной состояния системы. То есть сообщение о наступлении почти непременного события содержит ничтожное количество информации, в то время как сообщение о маловероятном событии несет много информации.
Допустим, что вероятность своевременной оплаты двумя покупателями приобретаемой ими продукции составляет соответственно 1/4 и 15/16. Тогда сообщение об уплате за продукцию в установленный срок этими покупателями соответственно будет нести различные количества информации:
Log2 (1:2) = 2 бита; Log2 (1: —) = 0,13 бита 4 16
То есть, сообщение об уплате в срок менее аккуратным покупателем несет
гораздо больше информации, чем сообщение об уплате продукции в срок
более дисциплинированным покупателем.
Рассмотрим еще один пример. Допустим, мы обращаемся в вышестоящую организацию с запросом: «В каком месяце коллектив предприятия должен выполнить запланированную ему на будущий год разработку новой машины?» Сколько информации будет содержаться в ответе: «В октябре?»
Поскольку этот ответ устраняет неопределенность, то в телеграмме содержится 3,6 двоичных единиц информации:
12 1 1
X = -У—Log2 — = 3.6 дв.ед.
£12 212
Вопросы для самоконтроля
Понятие экономической информация, примеры.
Понятие реквизита, примеры.
Понятие реквизита-признака и реквизита-основания, примеры.
Понятие показателя, составной единицы измерения (СЕИ), документа, примеры.
Понятие экономической информационной системы, примеры.
Единицы измерения объема экономической информации.