Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Шпоры-24_вопроса

.docx
Скачиваний:
37
Добавлен:
20.06.2019
Размер:
60.43 Кб
Скачать

20

Цель классификационного анализа – классификация респондентов и/или переменных по определенным целевым группам.

  • сегментирование респондентов по заранее известным (логистическая регрессия и дискриминантный анализ) или не известным (факторный и кластерный анализ) целевым группам;

  • классификация переменных по макрокатегориям, то есть сокращение их числа до нескольких значимых групп (факторный и кластерный анализ).

Логистическая регрессия и дискриминантный анализ применяются в том случае, когда необходимо классифицировать (сегментировать) респондентов по целевым группам, которые, в свою очередь, представлены уровнями (вариантами ответа) одной одновариантной переменной.

Кластерный и факторный анализы преследуют цель: классифицировать переменные и/или категории респондентов по однородным группам (сегментам, кластерам). Суть: кластеры (сегменты, категории), на которые следует разделить выборку, заранее не известны. Задачей статистического анализа в данном случае будет не только формирование максимально однородных сегментов, но и выделение кластеров, по которым будет производиться сегментирование. Факторный анализ позволяет разделить массив переменных на малое число групп, которые называются факторами. Классификация производится на основании критерия корреляции между переменными. В один фактор объединяются несколько переменных, тесно коррелирующих между собой и не коррелирующих или слабо коррелирующих с другими переменными, составляющими другие факторы. Таким образом, в результате факторного анализа мы получаем из несистематизированного массива данных несколько макропеременных, описывающих различные характеристики продукта компании (или другого исследуемого объекта). Кластерный анализ является аналогом факторного анализа в том-смысле, что он так же, как и факторный анализ, позволяет выделить факторы (кластеры), объединяющие статистически схожие переменные. Однако в данном случае переменные классифицируются не на основании степени тесноты корреляционной связи, а на основании более сложных статистических процедур (наиболее часто используется метод исследования расстояний между переменными в кластерах).

  1. Основные модели представления знаний. Общие требования, предъявляемые к моделям представления знаний.

  2. Моделирование. Виды моделирования.

  3. Способы визуализации. Основные правила создания графических изображений.

  4. Правила оформления и применения статистических таблиц и графиков.

21

Представление знаний — это множество соглашений по синтаксису и семантике, согласно которым описываются объекты. 

Модели представления знаний (условно): декларативные; процедурные.

Декларативная основывается на предположении, что проблема представления какой-либо предметной области решается независимо от того, как эти знания потом будут использоваться. Поэтому можно сказать что модель состоит из 2х частей: статические описательные структуры знаний, механизм вывода, оперирующий этими структурами (практически не зависит от их содержания). Синтаксические и семантические аспекты знаний оказываются раздельными (достоинство из-за их универсальности). Не содержится описание выполняемых процедур в явном виде. Данные модели представляют собой множество утверждений. Предметная область представлена в виде синтаксического описания ее состояния. Вывод решений основывается на процедурах поиска в пространстве состояний.

Процедурная – знания содержаться в небольших программах, которые определяют, как выполнять специфические действия. Для реализации вывода можно не описывать все возможные состояния среды или объекта, достаточно хранить некие начальные состояния и процедуры, генерирующие необходимые описания ситуаций и действий. Семантика непосредственно заложена в описание элементов базы знаний (повышение эффективности поиска решений).

Наиболее часто используемые модели: продукционные, семантические сети, фреймовые модели

Продукционная модель – это модель, основанная на правилах, позволяющая представить знание в виде: «ЕСЛИ условие, ТО действие»

Условие – предложение-образец для поиска в базе знаний;

Действие – действие, при успешном исходе поиска

Продукционная модель обладает тем недостатком, что при накоплении достаточно большого числа (порядка нескольких сотен) продукций они начинают противоречить друг другу.

Системы обработки знаний, использующие продукционную модель получили название «продукционных систем». В состав экспертных систем продукционного типа входят база правил (знаний), рабочая память и интерпретатор правил (решатель), реализующий определенный механизм логического вывода. Любое продукционное правило, содержащееся в базе знаний, состоит из двух частей: антецендента и консеквента. Антецедент представляет собой посылку правила (условную часть) и состоит из элементарных предложений, соединенных логическими связками «и», «или». Консеквент (заключение) включает одно или несколько предложений, которые выражают либо некоторый факт, либо указание на определенное действие, подлежащее исполнению. Продукционные правила принято записывать в виде антецедент-консеквент.

Существуют два типа продукционных систем – с «прямыми» и «обратными» выводами. Прямые выводы реализуют стратегию «от фактов к заключениям». При обратных выводах выдвигаются гипотезы вероятностных заключений, которые могут быть подтверждены или опровергнуты на основании фактов, поступающих в рабочую память. Существуют также системы с двунаправленными выводами.

Понятие «семантической сети» основано на идее о том, что память формируется через ассоциации между понятиями. Базовыми функциональными элементами семантической сети служит структура из двух компонентов – узлов и дуг (типа является (is) и имеет частью (fas part) и обладают свойством транзитивности (отношения иерархии наследования в сети).

Семантической сетью называется ориентированный граф с конечными вершинами.

Основные принципы семантической сети: знания, которые семантически связаны между собой, должны храниться вместе.

Понятия: абстрактные или конкретные объекты.

Отношения: связь «часть-целое», функциональные, количественные, пространственные, временные, атрибутные, логические, казуальные.

Достоинства:

  • Универсальность (набор отношений)

  • Наглядность системы знаний (графическое представление)

  • Близость структуры сети, семантической структуре фраз на естественном языке.

  • Соответствие современным представлениям об организации долговременной памяти человека

Недостатки:

  • Не дает ясного представления о структуре предметной области

  • Пассивная структура (обработка специальным аппаратом формального вывода)

  • Проблема поиска решений сводится к задаче поиска фрагменты сети

  • Представление, использование и модификация знаний при описании систем реального уровня сложности оказывается трудоемкой процедурой.

Фрейм (англ. frame – рамка, каркас) – структура данных для представления некоторого концептуального объекта. Информация, относящаяся к фрейму, содержится в составляющих его слотах.

Слот (англ. slot – щель, прорезь) может быть терминальным (листом иерархии) или представлять собой фрейм нижнего уровня.

Фреймовая модель основана на концепции Марвина Мински (Marvin Minsky). Фреймовая модель представляет собой систематизированную психологическую модель памяти человека и его сознания. По определению Минского, фрейм есть структура данных для представления стереотипных ситуаций.

Фреймы организованы в виде ослабленной иерархии (гетерархии), в которой фреймы, расположенные ниже в иерархии, могут наследовать значения тех что выше.

Фреймы с заполненными слотами называются экземплярами фрейма.

Фреймы подразделяются на:

  • фрейм-структуры – объекты и понятия; фрейм-роли. фрейм-сценарии. фреймы-ситуации.

Важнейшее свойство: наследование свойств

22

Моделирование – метод научного исследования явлений, процессов, объектов, устройств или систем (обобщенно – объектов исследований), основанный на построении и изучении моделей с целью получения новых знаний, совершенствования характеристик объектов исследований или управления ими.

Существуют разные классификации моделей. Л. М. Фридман53, подчеркивая, что модели строятся или выбираются человеком с определенной целью, выделяет следующие модели:

  • модель–заместитель,т. е. замена оригинала в некотором мысленном (воображаемом) или реальном действии (процессе), исходя из того, что модель более удобна для этого действия в данных условиях;

  • модель–представление,т. е. создание представления об объекте с помощью модели;

  • модель–интерпретация,т. е. истолкование объекта в виде модели;

  • модель исследовательская, т. е. исследование объекта с помощью модели.

Модели классифицируются также следующим образом:

  • понятийная, отражающая знания об объекте в форме определенной совокупности взаимосвязанных положений, утверждений, выводов;

  • образная, воспроизводящая основные стороны, элементы, связи, отношения объекта в форме описаний, фото- и киномоделей, графиков, схем;

  • знаково-символическая(математическая), отражающая существенные внутренние и внешние связи и отношения оригинала в виде формулы;

  • физическая, отображающая структуру и функции объекта в пространстве.

Виды моделирования:

  • концептуальное моделирование, при котором совокупность уже известных фактов или представлений относительно исследуемого объекта или системы истолковывается с помощью некоторых специальных знаков, символов, операций над ними или с помощью естественного или искусственного языков;

  • физическое моделирование, при котором модель и моделируемый объект представляют собой реальные объекты или процессы единой или различной физической природы, причем между процессами в объекте-оригинале и в модели выполняются некоторые соотношения подобия, вытекающие из схожести физических явлений;

  • структурно-функциональное моделирование, при котором моделями являются схемы (блок-схемы), графики, чертежи, диаграммы, таблицы, рисунки, дополненные специальными правилами их объединения и преобразования;

  • математическое (логико-математическое) моделирование, при котором моделирование, включая построение модели, осуществляется средствами математики и логики;

  • имитационное (программное) моделирование, при котором логико-математическая модель исследуемого объекта представляет собой алгоритм функционирования объекта, реализованный в виде программного комплекса для компьютера.

23

Визуализация информации – представление числовой и текстовой информации в виде графиков, диаграмм, структурных схем, таблиц, рисунков, карт и т.д. 

Виды:

  • Графики и диаграммы,

  • Инфорграфика и схемы,

  • Презентация и анализ данных,

  • Интерактивный сторителлинг,

  • Бизнес аналитика и дашборды,

  • Научная и медицинская визуализация,

  • Карты и картограммы.

Правила визуализации:

  1. Правильный тип графика. (пример, если в круговой диаграмме больше 3-5 значений – лучше линейчатая диаграмма. Временные оси располагаются строго горизонтально слева направо)

  2. Логический порядок (последовательность от большего к меньшему)

  3. Простой дизайн (не должен препятствовать пониманию или искажать данные, избегайте градиенты, 3д эффекты, тени)

  4. Легкое сравнение данных

  5. Минимум элементов (только необходимые элементы на диаграмме)

  6. Не перегружайте информацией

  7. Понятный формат чисел (с разделением разрядов и без лишних знаков после запятой)

  8. Название и подписи (полная легенда и название диаграмм)

  9. Общепринятые цветовые решения (положительные и отрицательные значения , да/нет – зеленый и красный, мужчина/женщина – голубой и розовый, прочее – серый)

  10. Минимум типов диаграмм (однотипные диаграммы – однотипные данные)

  11. Единая цветовая палитра.

24

Статистическая таблица- таблица, содержащая сводную число­вую характеристику исследуемой совокупности по одному или не­скольким существенным признакам, взаимосвязанным логикой экономического анализа.

Подлежащее таблицы представляет ту статистическую совокупность, о которой идет речь в таблице, т. е. перечень отдельных или всех единиц сово­купности либо их групп. Чаще всего подлежащее помещается в левой части таблицы и содержит перечень строк.

Сказуемое таблицы - показатели, с помощью которых дается характеристика явления, отображаемого в таблице.

В практике построения таблиц сложились следующие правила их построения и оформления.

1. По возможности таблицу следует составлять небольшой по размеру, легко обозримой. Иногда целесообразно вместо одной большой таблицы построить несколько органически связанных между собой, последовательно расположенных таблиц.

2. Общий заголовок таблицы должен кратко выражать ее основное содержание. В нем обычно указывается время, территория, к которым относятся данные, единица измерения, если она выступает единой для всей совокупности. Слова в таблице пишутся полностью, без сокращений. При отсутствии общей единицы измерения в каждой графе проставляется своя единица измерения.

3. Обычно строки подлежащего и графы сказуемого располагают в виде частных слагаемых с последующим расчетом итогов по каждому из них. При неполном объеме единиц изучаемой совокупности или отсутствии исходных данных все слагаемые сначала показывают в строке «общие итоги», а потом после пояснения в строке «в том числе» перечисляют наиболее важные их составные части.

4. При заполнении таблиц нужно использовать следующие условные обозначения: при отсутствии явления пишется прочерк (–), если же нет информации о явлении, ставится многоточие (...) или пишется «нет сведений». Если изучаемое значение признака не имеет осмысленного содержания, то ставится Х. 

5. Одинаковая степень точности, обязательная для всех чисел, обеспечивается соблюдением правил их округления (от 0,1 до 0,01 и т.д.). Когда одна величина превосходит другую многократно, то полученные показатели динамики лучше выражать не в процентах (%), а в разах. В аналитических таблицах значность абсолютных цифр должна быть наименьшей. В многозначных числах, наличие которых обусловлено интересами исследования, лучше отделять, начиная справа, друг от друга классы, выделять миллионы, тысячи, единицы. Иногда при построении таблиц приходится иметь дело с численностью, состоящей из 7 – 8 и более знаков; в таком случае удобнее применять округление до 2 – 3 знаков.

6. в заголовке должны быть отражены объект, признак, время и место совершения события;

7. графы и строки следует нумеровать;

8. графы и строки должны содержать единицы измерения;

9. сопоставляемую в ходе анализа информацию располагают в соседних графах (либо одну под другой);

10. числа в таблице проставляют в середине граф, строго одно под другим;

Статистический график- это одно из самых наглядных средств представления информации, это чертеж, на котором статистиче­ские совокупности, характеризуемые определенными показателя­ми, описываются с помощью условных геометрических образов или знаков.

Правильно построенный график делает статистическую информа­цию: более выразительной; запоминающейся; удобно воспринимаемой.

При построении графического изображения следует соблюдать сле­дующие требования:

• график должен быть достаточно наглядным;

• должен быть выразительным и понятным;

• не должен быть чрезмерно перегружен информацией.

  • график должен иметь все элементы, его образующие;

  • цифровые данные, изображаемые графически, должны пра­вильно и объективно отражать общественные явления.