Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Усачев Итоговый файл доп 1.doc
Скачиваний:
44
Добавлен:
08.06.2015
Размер:
4.63 Mб
Скачать

Пакет Statistica.

Этот пакет можно отнести к категории популярных универсальных. Наряду с пакетом SPSSон является, пожалуй, одним из двух наиболее распространенных среди специалистов различных областей, использующих статистическую обработку данных. Первая версияStatistica, разработанная компаниейStatSoftInc, вышла в 1991 году (подDOS). На момент написания этих строк появилась уже 12 версия этого программного продукта. В 1995 годуStatisticaбыла включена в список 100 лучших программных продуктов (версияWindowsMagazine).

Перечислить не то что все, а хотя бы самые основные возможности этого пакета (от широкого набора возможностей преобразовывать исходные данные до группы ныне модных методов DataMining) без где-то двух десятков страниц текста, наверное, невозможно.

Но прежде, чем говорить о некоторых (только некоторых!) доступных здесь способов решать задачи статистики перечислим недостатки этого пакета.

– Обилие возможностей. Их чересчур много! Хорошо об этом выражается А.П. Кулаичев1(*)стр.25«... Наряду с внешней красивостью, основным преимуществом перед конкурентами стал критерий разнообразия возможностей, которые добавляются в продукт без критического отбора. В результате многие пакеты ... стали напоминать своеобразные помойки. Действительно, на хорошей помойке можно найти все, что угодно, однако крайне трудно найти то, что в данный момент позарез нужно».

– Очень плохой Help. Не дает возможности понять как конкретно произвести те или иные процедуры, каким путем идти к нужным пунктам меню и как изменять в нужную сторону установки. ВHelpнет примеров. Невозможно понять какое формульное обеспечение используется в рассматриваемой процедуре обработки данных. Много смешного, например, если вLongname(панель спецификации переменной) формула набрана правильно, то появляется подсказка с некоторыми правилами правильного набора, а если неправильно – то просто «Errorinformula».

– Statisticaтабличный редактор, со свойствами частично схожими сExcel. Но в отличие отExcelв ней нет возможности работы с отдельными ячейками, преобразовывать можно только столбцы или строки целиком, результатом этих преобразований или обсчетов нельзя поместить в отдельные ячейки.

– Маленький набор математических функций преобразования переменных. Нет, например, функции факториал (!) и т.д.

И вот с этим букетом недостатков, пакет Statisticaсреди лидирующих на рынке обработки данных в экономике, медицине, психологии, географии и многих других наук. А за счет чего?

– Самая лучшая и удобная графика, среди статистических пакетов.

– Подробные отчеты по проведенным процедурам. И если ты сумел разобраться, что есть что при получении отчета о полученных результатах, то обычно получаешь ответы на подавляющее большинство своих вопросов.

– Наличие нужных способов обработки данных, не имеющихся в других пакетах.

Перечислим задачи из приведенного выше списка, которые нельзя решить в Statistica. Это Задача 1, Задача 8, Задача 15. Остальные задачи со всеми подвопросами легко решаются в этом пакете.

Вот так выглядит один из графиков к Задаче 4

А вот так выглядит отчет к Задаче 16 пункт 7. Решение предполагает использование однофакторного дисперсионного анализа (ANOVA).

Сразу видно, что эмпирическое значение уровня значимости 0,587280 больше чем 0,05. Следовательно принимается гипотезаH0 – статистически значимых различий в весе у респондентов с различным цветом волос не наблюдается. Здесь же получаем и ответ на вопрос из 12 пункта этой задачи.

Просто сравниваем 0,01 с .

Вот получение уравнение линейной функции регрессии веса на возраст; и оценка статистической значимость коэффициентов полученного уравнения (Задача 16, пункт 9).

Вся нужная информация представлена компактно и удобно читается.

– Само уравнение имеет вид .

Эмпирические уровни значимости коэффициентов уравнения равны 0,009682 и 0,000000 соответственно. Эти значения позволяют говорить о статистической значимости этих коэффициентов на уровне 0,05. Более того, мы получаем границы доверительных интервалов для них!

Ниже Вы видите (Statistica10) список самых современных возможностей обработки данных изDataMiningдоступных в этом пакете.

Вывод: если бы был бы доступным по цене, то для преподавания статистики очень удобный и богатый возможностями пакет.

R

R– это язык программирования для статистической обработки данных и работы с графикой, а также это свободная программная среда с открытым исходным кодом, развиваемая в рамках проектаGNU. Он может быть применяться везде где нужна работа с данными и это не только статистика в узком смысле понимания слова. Но наиболее часто он находит применению именно при статистическом анализе – от вычисления средних величин до вейвлет – преобразований временных рядов. Сейчас трудно найти американский или западноевропейский университет, где бы не работали сR. Многие весьма солидные коммерческие компании (например,Boeing) используют его в своей работе.

Чем же обусловлено также широкое (на Западе!, но не в России) распространение этого программного продукта? Проведем аналогию. Пусть имеется большая, очень большая, группа людей. Одному нужно что-то, чтобы резало морковку на равные дольки, другому – нужно прокручивать мясо, третьему – приготавливать мороженное и т.д. Каждый из них может купить очень дорогой и громоздкий универсальный комбайн, который все это умеет делать. Подчеркнем, что покупка комбайна обойдется весьма не дешево, а нужна от него будет только одна, от силы несколько, функций. И вдруг эти люди узнают, что есть совершенно бесплатный конструктор, из деталей которого они могут собрать небольшие и эффективные аппараты для удовлетворения своих нужд.Rи есть тот «конструктор», из которого каждый пользователь – практик может с небольшими усилиями собрать свой статистический пакет. Впрочем, весьма возможно, что и усилий на сборку тратить не придется – ныне, благодаря энтузиастамR, существует огромная библиотека статистических процедур, доступная всем и бесплатно. Правда, в этой огромной бочке меда, есть все-таки ложечка дегтя. Все существующие версииRиспользуют командную строку для ввода данных, и еще – интерфейс вывода результатов очень аскетичный, в нем нет привычным для «больших» пакетов понятных почти всем представлений ответов на задаваемые вопросы. Пользователь попадает в среду диалога с компьютером характерную для 70х – 80х годов, где было нужно немножко знать программирование и помнить большое количество команд. Ну, каждый выбирает по своим силам и возможностям!

Еще немного истории. Язык Rявляется некоммерческим продолжением (ответвлением) языкаS, возникшего еще в 1976 году. На основеS(с 1988 года) был создан статистический пакетS-PLUS. Пакет хороший, универсальный, но дорогой. В 1993 году новозеландские ученые (RobertGentlemanиRossIaka) предлагают новую версию, названнуюR. Эта версия отличается отSобращением к переменным, работой с памятью и имеет уникальную по легкости систему написания дополнений или пакетов. Получить пакетRподWindowsи первоначальные сведения о нем можно на официальном сайтеwww.r-project.org.

Очень удобна версия Portable, которую можно скачать на сайтеhttp://sourceforge.net/projects/rportable/

Теперь о возможностях R. Все предложенные выше задачи, кроме задачи 8 (нет процедур нахождения производных и интегралов), вRрешаются. Вот так выглядит решение задачи 1.

А вот решение задачи 10.

Даже эти простые примеры показывают, что по части наглядности и простоты общения, этот замечательный язык Rуступает статистическим пакетам и в качестве помощника в преподавании вряд ли может быть рекомендованы.

RapidMiner

Этот пакет сравнительно самый молодой в представленном выше списке. Проект RapidMiner был создан в 2001 году под названием YALE - Yet Another Learning Environment (дополнительная образовательная среда) в Дортмундском университете группой исследователей в области искусственного интеллекта. С 2004 года он становится проектом с открытым исходным кодом. Среди пользователей RapidMiner быстро набирает популярность и в 2009 году занимает второе место среди пакетов предназначенных для интеллектуального анализа данных (DataMining), причем 80% пользователей, использующих его как основной, собирались использовать его и далее (для пакетаRэтот показатель – 50%). В 2010 по этой же категории RapidMiner занимает первое место! В настоящее время он широко применяется при составлении и анализе реальных проектов в бизнесе, производстве, научных исследованиях и т.д., всюду, где приходится решать задачи классификации, выявления структурных связей, получения алгоритмов принятия решений на основе больших массивов данных.

На официальном сайте проекта (https://rapidminer.com/products/studio/) можно получить как бесплатную, укороченную, версиюCommunity Edition, так и расширенную платную –Enterprise Edition.

Интерфейс RapidMiner сильно отличается от стандарта общения с классическими статистическими пакетами. Вместо обработки данных при помощи выбора последовательности команд (требований), используется построение потоков данных проходящих через некоторые узлы. В пакете существует большое количество таких узлов, реализующих различные алгоритмы обработки (в бесплатной версии их около 300) В качестве ответа предлагается либо некоторая таблица, либо красивая графическая (древовидная) модель для выявления параметров, по которым принимаются решения.