- •Коэффициент корреляции Пирсона
- •Подготовка к факторному анализу
- •Регрессия частично наименьших квадратов
- •7. Использование подходов когнитивности моделирования для работы с данными
- •8. Использование возможностей сетей Кохонена для анализа данных
- •10. Взаимосвязь между корреляцией параметров и системой координат
- •11. Многопараметрический регрессионный анализ
- •12. Интерполяция и экстраполяция данных
- •13. Методы вариационного анализа данных Вариационный анализ (показатели вариации абсолют и относит.)
- •14. Компьютерные пакеты для обработки массива данных
- •15. Возможности пакета spss для работы с данными
- •16. Возможности RapidMiner для работы с данными.
- •17. Возможности ibmModeler (Clementine) для работы с данными.
- •18. Возможности SmartPls для работы с данными.
- •19. Возможности программы эксель для статистической обработки данных
- •20. Возможности программы Matlab или Scilab для работы с данными
16. Возможности RapidMiner для работы с данными.
С википедии:
RapidMiner (прежнее название YALE) — среда для проведения экспериментов и решения задач машинного обученияиинтеллектуального анализа данных. Эксперименты описываются в виде суперпозиций произвольного числа произвольным образом вложенных операторов, и легко строятся средствами визуального графического интерфейсаRapidMiner-а.
Приложениями RapidMiner-а могут быть как исследовательские (модельные), так и прикладные (реальные) задачи интеллектуального анализа данных, включая анализ текста(textmining),анализ мультимедиа(multimediamining),анализ потоков данных(datastreammining).
Функциональные возможности
RapidMiner предоставляет более 400 операторов для всех наиболее известных методов машинного обучения, включая ввод и вывод, предварительную обработку данных и визуализацию.
RapidMiner интегрирует в себя < операторы WEKA.
Имеется встроенный язык сценариев, позволяющий выполнять массивные серии экспериментов.
Концепция многоуровневого представления данных (multi-layereddataview) обеспечивает эффективную и прозрачную работу с данными.
Графическая подсистема обеспечивает многомерную визуализацию данных и моделей.
Имеется пошаговый учебник, включающий популярное введение в машинное обучениеиинтеллектуальный анализ данных.
Реализация и технологии
Программное обеспечение написано целиком на Java, поэтому работает во всех основных операционных системах.
Для представления экспериментов как суперпозиций операторов применяется язык XML.
Встраивание в другие приложения осуществляется посредством Java API.
Поддерживаются механизмы плагинов (plugin) и расширений (extension).
Вы закидываете данные, а потом просто перетаскиваете операторы в GUI, формируя процесс обработки данных. От вас — только понимание того, что вы делаете. Весь код берёт на себя среда. «Под капот» можно, конечно, залезть, но в большинстве случаев это просто не надо.
RapidMiner vs IBM SPSS Modeler У RM гораздо шире функциональные возможности по обработке, банально больше узлов. С другой стороны, в SPSS есть режимы «автопилота». Авто-модели (Auto Numeric, Auto Classifier) — перебирают несколько возможных моделей с разными параметрами, выбирают несколько лучших. Не сильно опытный аналитик может построить на таком адекватную модель. Она почти наверняка будет уступать в точности построенным опытным специалистом, но есть сам факт — можно построить модель ничего не понимая в этом. В RM есть аналог (Loop and Deliver Best), но он все же требует хотя бы выбрать модели и критерии выбора лучшего. Автоматическая предобработка данных (Auto Data Prep) — другая известная фишка SPSS — иначе и чуть более муторно реализована в RapidMiner. В SPSS сборка данных выполняется одним узлом Automated Data Preparation, галочками проставляется, что нужно сделать с данными. В RapidMiner — собирается из атомарных узлов в произвольной последовательности.
17. Возможности ibmModeler (Clementine) для работы с данными.
Программное обеспечение IBM SPSS Modeler позволяет выявлять неочевидные закономерности в Ваших данных, строить надежные модели и оперативно внедрять полученные результаты в процессы принятия решений
BM SPSS Modeler — программное обеспечение для datamining, сочетающее в себе все необходимые технические и аналитические инструменты для ежедневной работы с данными, разработки и внедрения эффективных прогностических моделей. Задачи, решаемые при помощи IBM SPSS Modeler, очень разнообразны. Среди них:
Повышение эффективности политики удержания клиентов
Стимуляция кросс-продаж и повторных покупок
Сегментация клиентов
Минимизация кредитных рисков
Обнаружение и предотвращение мошенничества
IBM SPSS Modeler — естественный выбор программного обеспечения для datamining, давно сделанный многими организациями, чей успех тесно связан с глубоким пониманием и активным использованием данных о поведении клиентов и о своей деятельности.
Пользователями IBM SPSS Modeler являются организации финансовой, страховой, телекоммуникационной отраслей, предприятия розничного бизнеса и других сфер деятельности.
Ключевые факты
Экономический эффект от использования IBM SPSS Modeler в решении задач datamining обеспечивается несколькими составляющими:
простота доступа к данным, их обработки, агрегирования и изменения структуры;
быстрое построение и оценка качества моделей на основе использования эффективных статистических методов и алгоритмов машинного обучения;
оперативное внедрение построенных моделей в практику принятия решений;
быстрое получение отдачи от инвестиций в программное и аппаратное обеспечение за счет высокой производительности, интегрируемости и масштабируемости;
соответствие межотраслевому стандарту datamining CRISP-DM.
Скорость и эффективность процесса datamining
Процесс моделирования заключается в обнаружении в данных устойчивых закономерностей, которые могут быть использованы для принятия решений и управления взаимоотношениями с клиентами. Если перед этим данные нужно собрать из разных источников, объединить, подготовить и провести предварительный анализ, эти технические этапы остаются подчиненными основной цели. И достичь этой цели IBM SPSS Modeler позволяет максимально быстро.
Масштабируемость
В IBM SPSS Modeler реализована трехуровневая архитектура обработки данных.
Задачи, не требующие больших объемов вычислений и доступа к крупным массивам данных, могут выполняться в IBM SPSS Modeler на локальных рабочих станциях.
По мере усложнения задач и увеличения времени ожидания результатов становится целесообразным перенос вычислений на сервер, где пользователи получают значительное преимущество в скорости вычислений за счет применения более мощной аппаратной части. Оптимальным является расположение сервера IBM SPSS Modeler и сервера базы данных на единой аппаратной платформе. Клиентская часть IBM SPSS Modeler при этом используется для подготовки стримов, запуска заданий на сервере, просмотра и анализа полученных результатов.
Следующий уровень производительности обеспечивается организацией основных вычислений непосредственно в базе данных за счет применения технологии SQL Pushback. Достигаемая скорость вычислений позволяет осуществлять аналитическую обработку очень больших информационных массивов.
Простой и удобный визуальный интерфейс
Вы сможете увидеть каждый шаг процесса, легко проверит свои идеи или предположения без необходимости программирования, а потом быстро внедрить результаты в точки принятия решений.
Экономия времени
Программное обеспечение IBM SPSS Modeler содержит множество инструментов и свойств, позволяющих быстро получить отдачу от инвестиций в аналитику. Автоматическое построение моделей, например, помогает быстро определить наилучшие модели и комбинировать прогнозы нескольких моделей для получения наиболее точных результатов.
Высокая производительность и масштабируемая архитектура
Выполняйте DataMining в базах данных и скоринг миллионов записей в течение нескольких минут без предъявления каких-либо специальных требований к аппаратному обеспечению. Многопоточность, поддержка аппаратных кластеров, встроенные алгоритмы и другие свойства IBM SPSS Modeler позволяют экономить ресурсы и управлять затратами на инфраструктуру IT, обеспечивая в то же время быстрое получение результатов.
Clementine:
По русски нашёл описание лишь на rutracker.org:
Клементина - входит в число нескольких лучших продуктов для DataMining. (Извлечение статистических закономерностей из массива данных - такой краткий перевод на русский К преимуществам пакета относятся: - разработка программного комплекса на основе методологический подхода, именуемого CRISP (ясный, четкий). Эта методика широко используется во многих компаниях. - наличие огромного числа специальных статистических методов - возможность предварительной подготовки данных - наличие четкой документации по работе с программой!!!! (это есть далеко не у каждого производителя) - возможности расширения (подключения своих модулей при необходимости) - наличие поэтапно построенных обучающих примеров, позволяющих быстро начать пользование пакетом. Программа является качественным программным продуктом, защищенным авторскими правами и предлагается к раздаче с целью ознакомления.