Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
итс ответы.docx
Скачиваний:
2
Добавлен:
31.07.2019
Размер:
70.97 Кб
Скачать

Контрольные вопросы:

  1. Назначение системы PolyAnalyst? позволяет получить практически полезные знания из большого количества текстовых и структурированных данных, передает эти знания в доступной пониманию форме и в виде оперативно применяемых моделей для принятия ответственных бизнес-решений. PolyAnalyst™ позволяет создавать многоступенчатые сценарии анализа данных и формы отчетов посредством простого drag-and-drop интерфейса. PolyAnalyst™ предоставляет пользователям результаты, полученные из прогнозов, в доступных для понимания формах, которые облегчают принятие взвешенных решений.

  2. Какие модули входят в состав системы PolyAnalyst? Категоризация,кластеризация,прогнозирование,анализ связей, Нахождение ключевых слов и поиск смысла, Выявление закономерностей, Нахождение аномалий. Текстовый анализ.

Find Laws Algorithm (FL)

Symbolic Knowledge Acquisition Technology, Эволюционное программирование

PolyNet Predictor Algorithm (PN)

GMDH-Neural Net hybrid, гибрид метода МГУА и нейронных сетей

Find Dependencies Algorithm (FD)

N-dimensional distribution analysis, N-мерный анализ распределений

Cluster Algorithm (FC)

Localization of Anomalies, N-мерный кластеризатор

PAY Algorithm (MB)

Memory Based Reasoning and Genetic Algorithms hybrid, гибрид метода "ближайших соседей" и генетических алгоритмов

Market Basket Analysis (BA)

Transactional clustering and directed association rules, транзакционный кластеризатор с генерацией направленных ассоциативных правил

Linear Regression (LR)

Stepwise Linear Regression, многопараметрическая линейная регрессия с автоматическим выбором независимых переменных

Classify Algorithm (CL)

Fuzzy logic classification, классификация по булевой целевой переменной, необходимо наличие модуля FL, или PN, или MB, или LR

Disciminate (DS)

Модификация модуля CL, обнаруживает различия между двумя таблицами

Decision Trees (DT)

Модуль "деревья решений", классификация на категории

Decision Forest (DF)

Многомерное «дерево решений», классификация на большое количество категорий

Text Analysis (TA)

Модуль текстового анализа, преобразует неструктурированный текст в пространство формальных признаков для последующего анализа алгоритмами Data mining (пока только английский язык)

Link Analysis (LA)

Модуль нахождения и графической визуализации связей между объектами

Summary Statistics (SS)

Модуль общей статистики

  1. Назначение модуля Core PolyAnalyst? автоматический генератор функцианальных процедур, служащих для описания скрытых закономерностей в данных. Его назначение - автоматическая генерация различных гипотез о взаимозависимости в исходных данных и их проверка.

  2. Назначение модуля ARNAVAC? обнаруживает в массивах данных функционально связные кластеры, фильтрует шум и случайные выбросы. Затем автоматический аналитик строит многомерную линейную регрессионную зависимость, как наиболее простое и доступное описание исходных данных, используя при этом уникальный быстродействующий алгоритм, автоматически выбирающий наиболее влияющие параметры с корректным определением их значимости.

  3. В чем состоит особенность модуля Линейная Регрессия? реализация этого модуля в системе PolyAnalyst имеет свои особенности, а именно: автоматический выбор наиболее значимых независимых переменных и тщательная оценка статистической значимости результатов. Нужно заметить, что в данном случае значимость отличается от значимости единичной регрессионной модели, так как в течение одного запуска данного вычислительного процесса может быть проверено большое число регрессионных моделей.

  4. Назначение модуля «Поиск Зависимостей»?

«Мягкий» алгоритм позволяет обнаруживать нечеткие и слабые функциональные зависимости и предназначен более для поиска аномалий в данных. «Жесткий» алгоритм ищет компактные и сильно связанные области в данных. В каждом из алгоритмов выделяются наиболее значимые параметры.

  1. Какие варианты алгоритмов использует модуль «Поиск Зависимостей»?

«Поиск Зависимостей» включает в себя варианты «мягкого» и «жесткого» алгоритмов.

  1. В чем состоит результат работы модуля Классификация? Результатом работы алгоритма является описание областей (диапазонов значений переменных), характеризующих каждый обнаруженный кластер, и разбиение исследуемой таблицы на подмножества, соответствующие кластерам. Если данные являются достаточно однородными по всем своим переменным и не содержат "сгущений" точек в каких-то областях, этот метод не даст результатов. Надо отметить, что минимальное число обнаруживаемых кластеров равно двум - сгущение точек только в одном месте в данном алгоритме не рассматривается как кластер.

  2. Назначение модуля Дискриминация? н предназначен для того, чтобы выяснить, чем данные из выбранной таблицы отличаются от остальных данных, включенных в проект, иными словами, для выделения специфических черт, характеризующих некоторое подмножество записей проекта. В отличие от алгоритма CL, он не требует задания целевой переменной, достаточно указать лишь таблицу, для которой требуется найти отличия.

  3. В чем состоит результат работы модуля Кластеризация? езультатом работы алгоритма является описание областей (диапазонов значений переменных), характеризующих каждый обнаруженный кластер, и разбиение исследуемой таблицы на подмножества, соответствующие кластерам. Если данные являются достаточно однородными по всем своим переменным и не содержат "сгущений" точек в каких-то областях, этот метод не даст результатов. Надо отметить, что минимальное число обнаруживаемых кластеров равно двум - сгущение точек только в одном месте в данном алгоритме не рассматривается как кластер

  4. Какие существуют требования к количеству записей в исследуемой таблице? требования к наличию достаточного количества записей в исследуемой таблице, а именно: минимальное количество записей в таблице, в которой может быть обнаружено N кластеров, равно (2N-1)4.

  5. Назначение модуля PolyNet Predictor? работа этого алгоритма основана на построении иерархической структуры, подобной нейронной сети. При этом сложность этой сетевой структуры и другие ее параметры подбираются динамически на основе свойств анализируемых данных. Если создаваемая сетевая структура не является слишком сложной, то может быть построено эквивалентное ей выражение на языке символических правил системы. Если же сеть слишком большая, то правило не может быть показано, однако его можно вычислить, или - иными словами, применить к исходным или новым данным для построения прогноза. Данный алгоритм чрезвычайно эффективен в инженерных и научных задачах, когда требуется построить надежный прогноз для числовой переменной.

  6. 1. Какие бывают качественные данные? дискретные и непрерывные. 2. Как преобразуются качественные данные в количественные? Процесс коренного изменения данного качества, "надлом" старого и рождение нового 3. Для чего нужен анализ корреляции входных и выходных параметров? Корреляционный анализ применяется для оценки зависимости выходных полей данных от входных факторов и устранения незначащих факторов. Принцип корреляционного анализа состоит в поиске таких значений, которые в наименьшей степени коррелированы (взаимосвязаны) с выходным результатом. Такие факторы могут быть исключены из результирующего набора данных практически без потери полезной информации. Критерием принятия решения об исключении является порог значимости. Если корреляция (степень взаимозависимости) между входным и выходным факторами меньше порога значимости, то соответствующий фактор отбрасывается как незначащий. 4. Для чего нужно перемешивание обучающих фактов? нейросеть в данном случае может привести к так называемому «переобучению» или же нейросеть просто не обучится. 5. Как определить количество слоев и нейронов в них? Приведите формулы для оценки. При выборе количества слоев и нейронов в них следует исходить из того, что способности сети к обобщению тем выше, чем больше суммарное число связей между нейронами. С другой стороны, число связей ограничено сверху количеством записей в обучающих данных. Yi=f(xiwij) 6. Почему необходимо предусмотреть возможность динамического сокращения ошибки обучения? Формируется функция ошибок, которая позволяет оценить качество работы нейронной сети во время обучения