Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
otvety_po_IT_na_ekzamen.docx
Скачиваний:
3
Добавлен:
28.04.2019
Размер:
146.74 Кб
Скачать

10.Технология анализа olap. Технология анализа “Data Mining”.“

Data Mining”- («Добыча», «Раскопка данных»)- это процесс, цель которого – обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс [применение] статистических и математических методов.;- это исследование и обнаружение «машинными» методами (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны. Нетривиальны, практически полезны, доступны для интерпретации человеком. Используемые технологии и алгоритмы:Регрессионный, дисперсионный и корреляционный анализ – реализован в большинстве современных статистических пакетов, в частности, в продуктах компаний SAS Institute, StatSoft и др;Методы анализа, базирующиеся на эмпирических моделях – для анализа в конкретной предметной области и применяются в недорогих средствах финансового анализа.;Обнаружение аномалий/отклонений – определение серьезных отклонений от нормального поведения.;Кластерные модели  - применяются для объединения сходных событий в группы на основании сходных значений нескольких полей в наборе данных. Применяются различные алгоритмы группировки, например, метод «ближайшего соседа».;Деревья решений – иерархическая структура, базирующаяся на наборе вопросов, подразумевающих ответ «да» или «нет». Не способны находить «лучшие» правила в данных (наиболее полные и точные).;Алгоритмы ограниченного перебора – вычисляющие частоты комбинаций простых логических событий в подгруппах данных;Нейросетевые алгоритмы – идея которых основана на аналогии с функционированием нервной ткани и заключается в том, что исходные параметры рассматриаются как сигналы, преобразующиеся в соответствии с имеющимися связями между «нейронами», а в качестве ответа, являющегося результатом анализа, рассматривается отклик всей сети на исходные данные;Эволюционное программирование – поиск и генерация алгоритма, выражающего взаимозависимость данных, на основании изначально заданного алгоритма, модифицирующегося в процессе поиска.; Системы рассуждений на основе аналогичных случаев –не создают каких-либо моделей или правил, обобщающих предыдущий опыт, произвол при выборе меры близости.;Генетические алгоритмы – критерий отбора хромосом и используемые процедуры являются эвристическими и далеко не гарантируют «лучшего» решения.OLAPТехнология комплексного многомерного анализа данных получила название OLAP (On-Line Analytical Processing). OLAP - это ключевой компонент организации хранилищ данных.-многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий (ключевое требование OLAP); предоставление пользователю результатов анализа за приемлемое время (обычно не более 5 с), ценой менее детального анализа; возможность осуществления любого логического и статистического анализа, характерного для данного приложения, и его сохранения в доступном для конечного пользователя виде;многопользовательский доступ к данным с поддержкой соответствующих механизмов блокировок и средств авторизованного доступа;возможность обращаться к любой нужной информации независимо от ее объема. OLAP-система состоит из множества компонентов. На самом высоком уровне представления система включает в себя источник данных, многомерную базу данных (МБД), предоставляющая возможность реализации механизма составления отчетов на основе технологии OLAP, OLAP-сервер и клиента. Система построена по принципу клиент-сервер и обеспечивает удаленный и многопользовательский доступ к серверу МБД. Рассмотрим составные части OLAP-системы.Источники. Источником в OLAP-системах является сервер, поставляющий данные для анализа. Хранилище данных. Исходные данные собираются и помещаются в хранилище, спроектированное в соответствии с принципами построения хранилищ данных. Многомерная база данных. Хранилище данных служит поставщиком информации для многомерной базы данных, которая является набором объектов. Основными классами этих объектов являются измерения и показатели. К измерениям относятся множества значений (параметров), по которым происходит индексация данных, например, время, регионы, тип учреждения. Сервер. Прикладной частью OLAP-системы является OLAP-сервер. Эта составляющая выполняет всю работу (в зависимости от модели системы), и хранит в себе всю информацию, к которой обеспечивается активный доступ. Клиентское приложение. Данные, структурированные соответствующим образом и хранимые в МБД доступны для анализа с помощью клиентского приложения. Пользователь получает возможность удаленного доступа к данным.

11. Классификаторы, коды и технологии их применения.

Группировка информации осуществляется на основе систем классификации и кодирования, позволяющих представить технико-экономическую информацию в форме, удобной для ввода и обработки данных с помощью вычислительной техники. Систематизация экономической информации вызывает необходимость применения самых разнообразных классификаторов: >Общегосударственных, разрабатываемых в централизованном порядке и являющихся едиными для всей страны. Отраслевых, единых для какой-то отрасли деятельности. Локальных, которые составляются на номенклатуры, характерные для данного предприятия, организации, банка (коды табельных номеров, подразделений, клиентов н др.). Код — пятизначный, построен по комбинированной системе и включает пять группировочных признаков: отрасль, подотрасль, вид, группа, подгруппа. Код — условное обозначение объекта знаком или группой знаков по определенным правилам, установленным системой кодирования. Коды могут быть цифровыми, буквенными, буквенно-цифровыми и состоять из одного или нескольких знаков. При машинной обработке предпочтение отдается информации, закодированной в цифровой форме, как наиболее удобной для автоматической группировки.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]