МИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ, СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ
Ордена Трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования
«Московский технический университет связи и информатики»
Кафедра «Математическая кибернетика и информационные технологии»
Дисциплина «Большие данные»
Отчет по лабораторной работе №3
Выполнил:
студент группы БСТ2104
Станишевский И.А.
Проверила: Тимофеева А. И.
Москва, 2023 г.
Содержание
Цель работы 3
Ход выполнения работы 3
1. Запуск оболочки Hive 3
2. Создание базы данных 4
3. Создание таблиц 6
4. Партиционирование 8
5. Парсинг входных данных с помощью регулярных выражений 11
6. Практика 16
Вывод: 23
Цель работы 3
Ход выполнения работы 3
1. Запуск оболочки Hive 3
2. Создание базы данных 4
3. Создание таблиц 6
4. Партиционирование 8
5. Парсинг входных данных с помощью регулярных выражений 11
6. Практика 15
Вывод: 22
Цель работы
Получить навыки работы с Hive.
Ход выполнения работы
1. Запуск оболочки Hive
Скопировав адрес HiveServer2 JDBC URL и на ноде, на которой мы будем работать, вводим команду с клиентов beeline: beeline -u "HiveServer2 JDBC URL" для подключения к Hive.
Рисунок 1 – Подключение к Hive
Выполним команду SHOW DATABASES, которая показывает список существующих баз данных Hive.
Рисунок 2 – Запуск команды SHOW DATABASES
2. Создание базы данных
Создадим тестовую БД. Для этого используем команду: hive> create database stanishevskii_test location '/user/stanishevskii/test_warehouse'; При создании базы нужно будет указать полный путь к warehouse.
Рисунок 3 – Запуск команды CREATE DATABASE
Проверим, создалась ли у нас БД. Используем команду SHOW DATABASES, чтобы посмотреть, создалась ли БД
Рисунок 4 – Запуск команды SHOW DATABASES для проверки команды CREATE DATABASE
Чтобы удалить базу вводим команду: hive> drop database if exists stanishevskii_test cascade; Слово CASCADE отвечает за удаление базы вместе с её содержимым. Используем команду SHOW DATABASES, чтобы посмотреть, удалилась ли БД.
Рисунок 5 – Запуск команды DROP DATABASE и проверка удаление через команду SHOW DATABASES
Создадим базу повторно, а также выведем информации о БД, используя команду: hive> DESCRIBE DATABASE stanishevskii_test
Рисунок 6 – Запуск команды SHOW DATABASES для проверки команды CREATE DATABASE
Рисунок 7 – Запуск команды DESCRIBE DATABASE
3. Создание таблиц
Создадим таблицу в тестовой базе. Для исходных данных используем датасет "Подсети" (/data/subnets/variant1): * IP-адрес, * маска подсети, в которой он находится. Нужно ввести следующие команды:
USE stanishevskii_test;
DROP TABLE IF EXISTS Subnets;
CREATE EXTERNAL TABLE Subnets (ip STRING, mask STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE
LOCATION '/data/subnets/variant1';
1. USE - подключение к базе данных. Без этой строки таблицы будут создаваться в базе "default".
2. EXTERNAL - существует 2 типа таблиц: managed и external. External-таблицы работают с внешними данными не изменяя их, а managed позволяют их изменять.
3. STORED AS здесь выбирается формат хранения таблицы. Для External-таблиц формат должен совпадать с форматом хранения данных. Для managed рекомендуется использовать сжатые форматы хранения (RCFile, AVRO и т.д.).
Рисунок 8 – Запуск команд для создания таблиц в тестовой базе
Проверим, как создалась таблица (выведем первые 10 строк), используя команду: SELECT * FROM Subnets LIMIT 10. Проверим список таблиц в базе с помощью команды: SHOW TABLES
Рисунок 9 – Запуск команды SELECT * FROM Subnets LIMIT 10 и SHOW TABLES для проверки