Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Mylnikov_otvety.docx
Скачиваний:
48
Добавлен:
13.03.2016
Размер:
655.4 Кб
Скачать

16. Возможности RapidMiner для работы с данными.

С википедии:

RapidMiner (прежнее название YALE) — среда для проведения экспериментов и решения задач машинного обученияиинтеллектуального анализа данных. Эксперименты описываются в виде суперпозиций произвольного числа произвольным образом вложенных операторов, и легко строятся средствами визуального графического интерфейсаRapidMiner-а.

Приложениями RapidMiner-а могут быть как исследовательские (модельные), так и прикладные (реальные) задачи интеллектуального анализа данных, включая анализ текста(textmining),анализ мультимедиа(multimediamining),анализ потоков данных(datastreammining).

Функциональные возможности

RapidMiner предоставляет более 400 операторов для всех наиболее известных методов машинного обучения, включая ввод и вывод, предварительную обработку данных и визуализацию.

RapidMiner интегрирует в себя < операторы WEKA.

Имеется встроенный язык сценариев, позволяющий выполнять массивные серии экспериментов.

Концепция многоуровневого представления данных (multi-layereddataview) обеспечивает эффективную и прозрачную работу с данными.

Графическая подсистема обеспечивает многомерную визуализацию данных и моделей.

Имеется пошаговый учебник, включающий популярное введение в машинное обучениеиинтеллектуальный анализ данных.

Реализация и технологии

Программное обеспечение написано целиком на Java, поэтому работает во всех основных операционных системах.

Для представления экспериментов как суперпозиций операторов применяется язык XML.

Встраивание в другие приложения осуществляется посредством Java API.

Поддерживаются механизмы плагинов (plugin) и расширений (extension).

Вы закидываете данные, а потом просто перетаскиваете операторы в GUI, формируя процесс обработки данных. От вас — только понимание того, что вы делаете. Весь код берёт на себя среда. «Под капот» можно, конечно, залезть, но в большинстве случаев это просто не надо.

RapidMiner vs IBM SPSS Modeler У RM гораздо шире функциональные возможности по обработке, банально больше узлов. С другой стороны, в SPSS есть режимы «автопилота». Авто-модели (Auto Numeric, Auto Classifier) — перебирают несколько возможных моделей с разными параметрами, выбирают несколько лучших. Не сильно опытный аналитик может построить на таком адекватную модель. Она почти наверняка будет уступать в точности построенным опытным специалистом, но есть сам факт — можно построить модель ничего не понимая в этом. В RM есть аналог (Loop and Deliver Best), но он все же требует хотя бы выбрать модели и критерии выбора лучшего. Автоматическая предобработка данных (Auto Data Prep) — другая известная фишка SPSS — иначе и чуть более муторно реализована в RapidMiner. В SPSS сборка данных выполняется одним узлом Automated Data Preparation, галочками проставляется, что нужно сделать с данными. В RapidMiner — собирается из атомарных узлов в произвольной последовательности. 

17. Возможности ibmModeler (Clementine) для работы с данными.

Программное обеспечение IBM SPSS Modeler позволяет выявлять неочевидные закономерности в Ваших данных, строить надежные модели и оперативно внедрять полученные результаты в процессы принятия решений

BM SPSS Modeler — программное обеспечение для datamining, сочетающее в себе все необходимые технические и аналитические инструменты для ежедневной работы с данными, разработки и внедрения эффективных прогностических моделей. Задачи, решаемые при помощи IBM SPSS Modeler, очень разнообразны. Среди них:

  • Повышение эффективности политики удержания клиентов

  • Стимуляция кросс-продаж и повторных покупок

  • Сегментация клиентов

  • Минимизация кредитных рисков

  • Обнаружение и предотвращение мошенничества

IBM SPSS Modeler — естественный выбор программного обеспечения для datamining, давно сделанный многими организациями, чей успех тесно связан с глубоким пониманием и активным использованием данных о поведении клиентов и о своей деятельности.

Пользователями IBM SPSS Modeler являются организации финансовой, страховой, телекоммуникационной отраслей, предприятия розничного бизнеса и других сфер деятельности.

Ключевые факты

Экономический эффект от использования IBM SPSS Modeler в решении задач datamining обеспечивается несколькими составляющими:

  • простота доступа к данным, их обработки, агрегирования и изменения структуры;

  • быстрое построение и оценка качества моделей на основе использования эффективных статистических методов и алгоритмов машинного обучения;

  • оперативное внедрение построенных моделей в практику принятия решений;

  • быстрое получение отдачи от инвестиций в программное и аппаратное обеспечение за счет высокой производительности, интегрируемости и масштабируемости;

  • соответствие межотраслевому стандарту datamining CRISP-DM.

Скорость и эффективность процесса datamining

Процесс моделирования заключается в обнаружении в данных устойчивых закономерностей, которые могут быть использованы для принятия решений и управления взаимоотношениями с клиентами. Если перед этим данные нужно собрать из разных источников, объединить, подготовить и провести предварительный анализ, эти технические этапы остаются подчиненными основной цели. И достичь этой цели IBM SPSS Modeler позволяет максимально быстро.

Масштабируемость

В IBM SPSS Modeler реализована трехуровневая архитектура обработки данных.

Задачи, не требующие больших объемов вычислений и доступа к крупным массивам данных, могут выполняться в IBM SPSS Modeler на локальных рабочих станциях.

По мере усложнения задач и увеличения времени ожидания результатов становится целесообразным перенос вычислений на сервер, где пользователи получают значительное преимущество в скорости вычислений за счет применения более мощной аппаратной части. Оптимальным является расположение сервера IBM SPSS Modeler и сервера базы данных на единой аппаратной платформе. Клиентская часть IBM SPSS Modeler при этом используется для подготовки стримов, запуска заданий на сервере, просмотра и анализа полученных результатов.

Следующий уровень производительности обеспечивается организацией основных вычислений непосредственно в базе данных за счет применения технологии SQL Pushback. Достигаемая скорость вычислений позволяет осуществлять аналитическую обработку очень больших информационных массивов.

Простой и удобный визуальный интерфейс

Вы сможете увидеть каждый шаг процесса, легко проверит свои идеи или предположения без необходимости программирования, а потом быстро внедрить результаты в точки принятия решений.

Экономия времени

Программное обеспечение IBM SPSS Modeler содержит множество инструментов и свойств, позволяющих быстро получить отдачу от инвестиций в аналитику. Автоматическое построение моделей, например, помогает быстро определить наилучшие модели и комбинировать прогнозы нескольких моделей для получения наиболее точных результатов.

Высокая производительность и масштабируемая архитектура

Выполняйте DataMining в базах данных и скоринг миллионов записей в течение нескольких минут без предъявления каких-либо специальных требований к аппаратному обеспечению. Многопоточность, поддержка аппаратных кластеров, встроенные алгоритмы и другие свойства IBM SPSS Modeler позволяют экономить ресурсы и управлять затратами на инфраструктуру IT, обеспечивая в то же время быстрое получение результатов.

Clementine:

По русски нашёл описание лишь на rutracker.org:

Клементина - входит в число нескольких лучших продуктов для DataMining. (Извлечение статистических закономерностей из массива данных - такой краткий перевод на русский К преимуществам пакета относятся: - разработка программного комплекса на основе методологический подхода, именуемого CRISP (ясный, четкий). Эта методика широко используется во многих компаниях. - наличие огромного числа специальных статистических методов - возможность предварительной подготовки данных - наличие четкой документации по работе с программой!!!! (это есть далеко не у каждого производителя) - возможности расширения (подключения своих модулей при необходимости) - наличие поэтапно построенных обучающих примеров, позволяющих быстро начать пользование пакетом. Программа является качественным программным продуктом, защищенным авторскими правами и предлагается к раздаче с целью ознакомления.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]