Добавил:

knenial Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский технический университет связи и информатики

Предмет:

Большие данные

Файл:

Лаб 5 БСТ1904 Пантелеева

.docx

Скачиваний:

Добавлен:

04.03.2022

Размер:

311.17 Кб

Скачать

☆

Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации

Ордена Трудового Красного Знамени

Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования

Московский технический университет связи и информатики

Дисциплина «Большие данные»

Лабораторная работа №5

Выполнила:

Студентка группы БСТ1904

Пантелеева К.А.

Проверила:

Пугачева М.А.

Москва, 2021

Цель.

Знакомство с работой в Zeppelin и Spark

Задание.

Установить виртуальную машину HDP Sandbox https://disk.yandex.ru/d/tKEUMsJ6u6Mlyw
Запустить виртуальную машину. В результате запуска она выдает окно с доступом к «менеджеру», похожему на то, что было у Cloudera. Полученные пути нужно открыть на своей хостовой машине. Нам понадобятся как приветствующий экран, так и информация для ssh-подключения

Н а открывшейся веб-странице выбираем «Launch Dashboard» и в интерфейсе Ambari вводим логин и пароль: maria_dev (одинаковый, для обоих полей ввода). Теперь возможно ознакомится с состоянием сервисов у запущенной виртуальной машины.
С реди сервисов необходимо убедится в наличии Spark2 и Zeppelin. Находим второй и среды Quick Links находим Zeppelin UI, он не откроется, но мы сможем узнать, по какому порту необходимо обращаться. Заменяем выделенное на localhost и у нас открывается интерфейс блокнота. Подготовка Zeppelin завершена.

Для переноса файлов с хостовой машины (вашей основной системы) на виртуальную (HDP) необходимо воспользоваться SSH подключением. Гайд по подключению можно найти здесь: https://losst.ru/kak-podklyuchitsya-po-ssh Ваши данные для ssh

Пароль: hadoop

Вы можете использовать тот файл, который скачивали для работы с Hive в предыдущей работе. О том, как с хостовой машины скопировать файл в виртуальную по ssh рассказано здесь: https://losst.ru/kopirovanie-fajlov-scp

Ваше подключение root@localhost/root@127.0.0.1

После копирования файла вы сможете обращаться к нему в виртуальной машине, что и понадобится нам при работе со Spark.

При проблемах с железом: недостаточное количество оперативной/постоянной памяти для конфигурации (ей нужно 20 Гб на скачивание и 10 Гб оперативной для работы виртуальной) возможно выполнить задание в других блокнотах. За инструкцией обратиться лично, такие студенты будут зафиксированы.

Справка по командам PySpark: https://pythonru.com/biblioteki/pyspark-dlja-nachinajushhih

Считать csv-файл в формате DataFrame
Вывести первые n-записей
Применить фильтр к данным
Вывести данные с группировкой
Вывести данные с группировкой и агрегированием
Визуализировать данные при помощи специальной переменной Zepptlin z (z.show). Испробовать не только столбчатые диаграммы https://russianblogs.com/article/7845281424/

Ход выполнения лабораторной работы:

Рисунок 1 – Считывание файла

Рисунок 2 – Вывод записей

Рисунок 3 – Применение фильтра к записям

Рисунок 4 - Группировка

Рисунок 5 – Группировка и агрегирование

Рисунок 6 – Вывод графиков

Соседние файлы в предмете Большие данные

#
04.03.20221.22 Mб44Лаб 1 БСТ1904 Пантелеева.docx
#
04.03.20221.1 Mб90Лаб 2 БСТ1904 Пантелеева.docx
#
04.03.2022210.78 Кб103Лаб 3 БСТ1904 Пантелеева.docx
#
04.03.2022824.71 Кб69Лаб 4 БСТ1904 Пантелеева.docx
#
04.03.2022311.17 Кб74Лаб 5 БСТ1904 Пантелеева.docx
#
04.03.20221.09 Mб47Нейронные сети и большие данные.docx