Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лаб 5 БСТ1904 Пантелеева

.docx
Скачиваний:
74
Добавлен:
04.03.2022
Размер:
311.17 Кб
Скачать

Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации

Ордена Трудового Красного Знамени

Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования

Московский технический университет связи и информатики

Дисциплина «Большие данные»

Лабораторная работа №5

Выполнила:

Студентка группы БСТ1904

Пантелеева К.А.

Проверила:

Пугачева М.А.

Москва, 2021

Цель.

Знакомство с работой в Zeppelin и Spark

Задание.

  1. Установить виртуальную машину HDP Sandbox https://disk.yandex.ru/d/tKEUMsJ6u6Mlyw

  2. Запустить виртуальную машину. В результате запуска она выдает окно с доступом к «менеджеру», похожему на то, что было у Cloudera. Полученные пути нужно открыть на своей хостовой машине. Нам понадобятся как приветствующий экран, так и информация для ssh-подключения

  1. Н а открывшейся веб-странице выбираем «Launch Dashboard» и в интерфейсе Ambari вводим логин и пароль: maria_dev (одинаковый, для обоих полей ввода). Теперь возможно ознакомится с состоянием сервисов у запущенной виртуальной машины.

  2. С реди сервисов необходимо убедится в наличии Spark2 и Zeppelin. Находим второй и среды Quick Links находим Zeppelin UI, он не откроется, но мы сможем узнать, по какому порту необходимо обращаться. Заменяем выделенное на localhost и у нас открывается интерфейс блокнота. Подготовка Zeppelin завершена.

  1. Для переноса файлов с хостовой машины (вашей основной системы) на виртуальную (HDP) необходимо воспользоваться SSH подключением. Гайд по подключению можно найти здесь: https://losst.ru/kak-podklyuchitsya-po-ssh Ваши данные для ssh

Пароль: hadoop

  1. Вы можете использовать тот файл, который скачивали для работы с Hive в предыдущей работе. О том, как с хостовой машины скопировать файл в виртуальную по ssh рассказано здесь: https://losst.ru/kopirovanie-fajlov-scp

Ваше подключение root@localhost/root@127.0.0.1

  1. После копирования файла вы сможете обращаться к нему в виртуальной машине, что и понадобится нам при работе со Spark.

При проблемах с железом: недостаточное количество оперативной/постоянной памяти для конфигурации (ей нужно 20 Гб на скачивание и 10 Гб оперативной для работы виртуальной) возможно выполнить задание в других блокнотах. За инструкцией обратиться лично, такие студенты будут зафиксированы.

Справка по командам PySpark: https://pythonru.com/biblioteki/pyspark-dlja-nachinajushhih

  1. Считать csv-файл в формате DataFrame

  2. Вывести первые n-записей

  3. Применить фильтр к данным

  4. Вывести данные с группировкой

  5. Вывести данные с группировкой и агрегированием

  6. Визуализировать данные при помощи специальной переменной Zepptlin z (z.show). Испробовать не только столбчатые диаграммы https://russianblogs.com/article/7845281424/

Ход выполнения лабораторной работы:

Рисунок 1 – Считывание файла

Рисунок 2 – Вывод записей

Рисунок 3 – Применение фильтра к записям

Рисунок 4 - Группировка

Рисунок 5 – Группировка и агрегирование

Рисунок 6 – Вывод графиков