- •Семинар 1. Введение в Stata
- •Управление данными
- •Формат исходных данных
- •Импорт данных в пакет Stata
- •Удаление ненужных переменных или наблюдений
- •Проставление меток переменных
- •Создание новых переменных
- •Перекодировка переменных
- •Автоматическое создание набора дихотомических (бинарных) переменных из категориальной
- •Подсчет числа наблюдений, удовлетворяющих определенному условию
- •Примеры простейшей обработки данных
Эконометрика Семинар 1
Введение в Stata
Семинар 1. Введение в Stata
(Stata introductory session)
Stata – наиболее часто используемый прикладными экономистами пакет. При решении задач на семинарах Вам придется часто использовать Stata для получения ответов. На первом занятии мы познакомимся с пакетом, а на последующих занятиях в тексте заданий будут присутствовать инструкции там, где потребуются знания по Stata, выходящие за пределы данного занятия.
Управление данными
Обычно данные подготавливаются в пакете Excel, а затем уже попадают в статистические пакеты, так как Excel удобен для манипуляций с данными, но не содержит продвинутых возможностей анализа данных.
Формат исходных данных
Откройте файл movies2000-2011.xls и ознакомьтесь с его содержимым. В нем содержится информация о некоторых характеристиках кинофильмов, вышедших на экраны кинотеатров США в 2000-2011 гг. Краткие названия переменных содержатся в первой строке набора данных. А далее следуют сами наблюдения – всего 2078 фильмов, каждый из которых имеет уникальный идентификационный номер.
-
id
идентификационный номер фильма
moviename
название фильма
production_year
год производства
sequel
является ли фильм сиквелом (1) или нет (0)
prod_method
метод производства (анимация, игра актеров и т.п.)
genre
жанр
mpaa_rating
рейтинг Американской ассоциации кинопроизводителей, указывающий на возрастные ограничения к просмотру фильма
infadj_prodbudget
производственный бюджет, скорректированный на инфляцию ($ 2011 года)
infadj_dom_boxoffice
кассовые сборы внутри США, скорректированные на инфляцию ($ 2011 года)
dom_boxoffice
номинальные кассовые сборы внутри США, нескорректированные на инфляцию
openweekend_theaters
количество кинотеатров, в которых фильм показывался в первый уик-энд проката
competitors_14days
количество фильмов-конкурентов, вышедших за 14 дней до или после релиза фильма
competitors_7days
количество фильмов-конкурентов, вышедших за 7 дней до или после релиза фильма
competitors_14days_budget
суммарный бюджет фильмов-конкурентов, вышедших за 14 дней до или после релиза фильма
competitors_7days_budget
суммарный бюджет фильмов-конкурентов, вышедших за 7 дней до или после релиза фильма
Импорт данных в пакет Stata
Импортируем данные в пакет Stata из Excel. Для этого лучше всего сохранить файл в формате «Текстовый файл с разделителями табуляциями»). Затем в Stata выбираем File-Import-ASCII data created by a spreadsheet и указываем путь к файлу movies2000-2011.txt. Обратите внимание, что в связи с особенностями Stata в имени пути не должно быть буквы «я».
Далее обычно можно оставить настройки по умолчанию (Stata сама определит тип разделителя и тип данных для каждой переменной):
В окне результатов появилась команда вида:
insheet using "путь к текстовому файлу с данными"
Мы могли выполнить импорт введя эту команду в командную строку, но импорт файла обычно проще выполнить через кнопочный интерфейс.
В левом верхнем углу сохраняются введенные команды так, чтобы их в любой момент можно было повторно ввести или скопировать куда-либо. Желательно сохранять все использованные Вами команды с комментариями, чтобы потом Ваш анализ легко было воспроизвести Вам самим или другим людям.
В левом нижнем углу выводится список переменных в нашем наборе данных. Это названия переменных, которые были в верхней строке Excel-файла.
Для того чтобы увидеть данные подобно тому, как мы видели их в Excel, нужно зайти в меню Data – Data Editor – Data Editor (edit):
Числовые значения отображаются черным цветом, а переменные строкового типа – красным.