592_voprosa_ответы_на_экз_ситиод
.docx
Значение по умолчанию для HADOOP_HEAPSIZE
Правильный ответ: 1000 MB
Значение репликации по умолчанию для JAR джобы
Правильный ответ: 10.0
из-за операции________________, существует возможность OLAP достигать высокой производительности для запроса.
Правильный ответ: Агрегирования (Aggregation).
Извлечение данных- это процесс
Правильный ответ: чтение и сбор данных из базы данных, данные часто собираются из нескольких источников
Измерение, которое используется в нескольких схемах, называется
Правильный ответ: Согласованное измерение
Измерения нормализованы
Правильный ответ: Не верно
Инструмент управления данными, используемый с пограничными узлами в Hadoop
Правильный ответ: Всё вышеперечисленное
Использование какой операции сводится к минимуму при использовании Cassandra?
Правильный ответ: Дисковый ввод-вывод.
Использование процессора и кучи может быть профилировано с помощью
Правильный ответ: HPROF
Использует ли MongoDB принципы NoSQL?
Правильный ответ: Да
Каждый ключ, используемый для соединения таблицы фактов с таблицей измерений, должен быть суррогатным ключом
Правильный ответ: Верно
Как данные хранятся в MOLAP?
Правильный ответ: Многомерные базы данныx
Как называется язык программирования, который является родным для платформы Pig
Правильный ответ: Pig Latin
Как операция детализации(drill-down) влияет на размер куба данных?
Правильный ответ: Это может увеличить размер
Как операция поворота(pivot) влияетна размер куба данных?
Правильный ответ: Не влияет на размер
Как операция свертки влияет на размер куба данных?
Правильный ответ: Это может уменьшить размер
Как работает Murmur3Partitioner?
Правильный ответ: Быстрый разделитель на основе хэша
Как расшифровывается акроним ETL?
Правильный ответ: Extract, Transform and Load
Как увеличение порога айсберга влияет на размер куба данных?
Правильный ответ: Это может уменьшить размер
Как частичная материализация куба влияет на размер куба данных?
Правильный ответ: Это всегда уменьшает размер
Какая директория содержит файлы данных в Cassandra?
Правильный ответ: data
Какая из перечисленных ниже функций не является преимуществом для баз данных NoSQL?
Правильный ответ: Обработка реляционных данных.
Какая из приведенных ниже систем Apache имеет дело с приемом потоковых данных в Hadoop?
Правильный ответ: Kafka
Какая из приведенных ниже структур данных не является допустимой для NoSQL?
Правильный ответ: На основе таблицы.
Какая из следующих команд используется для запуска сценария Pig, который может взаимодействовать с оболочкой Grunt (интерактивный режим)?
Правильный ответ: TDebugProtocol
Какая из следующих компаний разработала базу данных NoSQL Cassandra?
Правильный ответ: Facebook.
Какая из следующих нод является единственной точкой отказа для кластера HDFS?
Правильный ответ: NameNode
Какая из следующих характеристик относится к OLAP?
Правильный ответ: Поддерживает архитектуру клиент/сервер
Какая из СУБД осуществляет работу с БД по принципу «wide-column store» (группа столбцов представляет собой контейнер для строки)?
Правильный ответ: Cassandra.
Какая из функций не является функцией расширенной аналитики?
Правильный ответ: Инструменты и методы для анализа и визуализации имеющихся данных.
Какая категория OLAP предлагает лучшую производительность?
Правильный ответ: MOLAP.
Какая команда выводит версию Hbase
Правильный ответ: version
Какая команда используется для проверки статуса демонов в HDFS?
Правильный ответ: jps
Какая мера поможет в реализации подробных отчетов для удаленных пользователей, но требуется лишь время от времени?
Правильный ответ: Внедрение веб-инструмента отчетности с возможностями детализации.
Какая модель данных используется базами данных, настроенными для OLAP?
Правильный ответ: Многомерная.
Какая операция включает в себя суммирование данных по измерению?
Правильный ответ: Slice
Какая операция позволяет аналитику вращать куб в пространстве, чтобы увидеть его различные грани?
Правильный ответ: Pivot
Какая операция позволяет пользователю перемещаться между уровнями данных, начиная от самых обобщенных до самых подробных?
Правильный ответ: Drill Down
Какая операция создает вложенный куб, позволяя аналитику выбирать конкретные значения нескольких измерений?
Правильный ответ: Dice
Какая пара мер данных используется для определения общей дисперсии в анализе системы измерений?
Правильный ответ: Дисперсия измерения и дисперсия процесса
Какая техника обработки Mapreduce
Правильный ответ: Пачкой
Какая технология лучше всего подходит для пакетной обработки данных?
Правильный ответ: MapReduce
Какая функция OLAP может разбить продажи по городам?
Правильный ответ: Детализация (Drill-down).
Какие действия следует учитывать при выборе системы управления данными
Правильный ответ: Всё вышеперечисленное
Какие задачи выполняет региональные серверы
Правильный ответ: Всё вышеперечисленное
Какие из них можно использовать для прогнозирования непрерывных значений данных?
Правильный ответ: Временная последовательность
Какие из перечисленных преимуществ является главным преимуществом бизнес-аналитики?
Правильный ответ: Поддержка принятия решений.
Какие из перечисленных преимуществ являются преимуществами облачной BI по сравнению с локальной BI?
Правильный ответ: Все варианты
Какие из представленных являются популярными OLAP инструментами?
Правильный ответ: Metacube, Informix.
Какие из следующих вопросов рассматриваются, прежде чем инвестировать в Data Mining?
Правильный ответ: Все вышеперечисленное
Какие из следующих полей обычно используют методы интеллектуального анализа данных?
Правильный ответ: Все вышеперечисленное
Какие из следующих типов данных являются верными?
Правильный ответ: Полуструктурированные и неструктурированные данные.
Какие из следующих утверждений являются неверными в отношении инструментов OLAP 1. Не изучают 2. Создают новые знания 3. Более эффективны, чем data mining 4. Не могут найти новые решения
Правильный ответ: Только 3
Какие из следующих функций являются функциями менеджера хранилища данных 1. Преобразование и управление данными 2. Резервное копирование и архивирование хранилища данных 3. Направление и управление запросами
Правильный ответ: Только 1
Какие из этих фреймворков были разработаны Google?
Правильный ответ: MapReduce
Какие меры в розничной торговле помогут решить проблему краж и ущерба?
Правильный ответ: Отслеживать текущие запасы, продажу продукции и полученные запасы.
Какие параметры следует посмотреть руководителю, просматривающему ежемесячные продажи по регионам, чтобы понять, какие магазины увеличили общий объем продаж за последний месяц
Правильный ответ: Магазины и время
Какие параметры следует посмотреть руководителю, просматривающему ежемесячные продажи по регионам, чтобы понять, какие магазины увеличили общий объем продаж за последний месяц
Правильный ответ: Магазины и время
Какие преимущества имеет процесс использования BI?
Правильный ответ: Определение наиболее богатых клиентов и быстрое обнаружение заявленных проблем для минимизации последствий.
Какие функциональные области поддерживаются ERP
Правильный ответ: Все из вышеперечисленного
Каким будет коэффициент корреляции для двух переменных, линейно связанных как y = 2x
Правильный ответ: Высокий положительный, 1
Каким из следующих способов можно использовать BI для улучшения управления запасами и закупками?
Правильный ответ: Все вышеперечисленное.
Каков характер качества данных?
Правильный ответ: Данные должны быть точными и своевременными
Какова основная цель создания NoSQL?
Правильный ответ: NoSQL – это новый формат данных для хранения больших наборов данных.
Какова стратегия размещения по умолчанию при создании пространства ключей в Apache Cassandra для одного центра обработки данных?
Правильный ответ: SimpleStrategy
Какова цель системы бизнес-аналитики
Правильный ответ: Улучшение своевременности и качества ввода для принятия решений
Какова цель системы бизнес-аналитики
Правильный ответ: Улучшение своевременности и качества ввода для принятия решений
Какова цель системы, которая управляет взаимоотношениями с клиентами
Правильный ответ: Все из нижеперечисленного
Каково будет среднее значение данных для случайной величины x, имеющей вероятности (1 + r) / 3, (1 + 2r) / 3 и (0,2 + 3r) / 3 для значений 1,2 и 3
Правильный ответ: 1.8
Каковы причины для расширения безопасности / разведки?
Правильный ответ: Все вышеперечисленные
Каковы проблемы рабиты BI с полуструктурированными или неструктурированными данными?
Правильный ответ: Неструктурированные данные хранятся в огромном разнообразии форматов и существует необходимость разработки стандартизированной терминологии.
Какое высказывание из нижеперечисленных верно?
Правильный ответ: Hadoop не подходит для обработки рабочих нагрузок онлайн-транзакций.
Какое значение времени ожидания для старта по умолчанию у коллектора мусора?
Правильный ответ: 4 часа
Какое значение по умолчанию имеет Commit Log до создания нового файла?
Правильный ответ: 32 MB
Какое из высказываний верное?
Правильный ответ: Машинное обучение ориентируется на предсказания, основанные на фактах, предоставленных в данных для обучения
Какое из измерений является Ролевым Измерением?
Правильный ответ: Измерение времени
Какое из приведённых утверждений не отражает важность использования базы данных в электронном бизнесе?
Правильный ответ: Повреждение базы данных затрагивает практически все прикладные программы.
Какое из свойств теоремы CAP относится к распределению нагрузки?
Правильный ответ: Partition tolerance (устойчивость к разделению).
Какое из следующих свойств настраивается на mapred-site.xml?
Правильный ответ: Хост и порт, где происходит выполнение работы MapReduce
Какое из следующих свойств не является стандартным свойством NoSQL?
Правильный ответ: Доступность.
Какое из следующих утверждений относится к понятию производственной системы в бизнес-аналитике?
Правильный ответ: Является узкой и простой областью использования.
Какое из следующих утверждений про OLAP верно?
Правильный ответ: OLAP-куб - это технология, которая оптимизирует хранение данных и обеспечивает быстрый ответ на различные типы сложных запросов с использованием измерений и мер.
Какое из следующих утверждений соответствует базам данных NoSQL?
Правильный ответ: Они полезны для поддержки больших распределенных наборов данных.
Какое из следующих утверждений является верным в отношении данных фактов и данных измерений 1. Данные фактов представляют собой физическую транзакцию, которая произошла в определенный момент времени и, как таковая, вряд ли изменится на постоянной основе в течение срока службы хранилища данных 2. В целом данные измерений в схеме «звезда» или «снежинка» предназначены для минимизации затрат на изменение и обычно представляют собой данные с очень малым объемом (т. е. менее 5 ГБ). 3. Фактические данные будут иметь только один внешний ключ, тогда как связанные данные будут иметь один первичный ключ.
Правильный ответ: 1 и 2
Какое понятие относится к большим данным и имеет дело со степенью точности доступных данных
Правильный ответ: Правдивость
Какое утверждение из нижеперечисленных верно?
Правильный ответ: Локальность данных означает перемещение вычислений в данные вместо данных в вычисление
Какое утверждение относится к данным, используемым для описания других данных (например, длина песни в iTunes, которая описывает музыкальный файл)?
Правильный ответ: Метаданные.
Какое утверждение отражает свойство обеспечения безопасности данных в базах данных NoSQL по сравнению с другими СУБД?
Правильный ответ: NoSQL обеспечивает меньшую целостность и доступность.
Какое утверждение является верным?
Правильный ответ: С кубом OLAP мы можем создать структуру интеллектуального анализа данных, которая может быть полезна при прогнозировани и предсказании.
Какое утверждение является верным?
Правильный ответ: OLAP Куб необходимо выбрать, когда производительность является ключевым фактором, а ключевые лица, принимающие решения, могут в любое время запросить статистику из данных вашей огромной базы данных.
Какое утверждение, в отношении операции вращения(pivot), является верным?
Правильный ответ: Поворот означает вращение, то есть просмотр куба под разными углами.
Какое утверждение, в отношении операции детализации(drill-down), является верным?
Правильный ответ: Выполняется либо увеличением размера, либо операцией понижения. Это позволяет пользователю просматривать подробные данные. Это также известно как операция скатывания.
Какое утверждение, в отношении операции Свёртывания(roll-up), является верным?
Правильный ответ: Выполняется либо уменьшением размера, либо операцией увеличения. Это позволяет пользователю просматривать сводные данные в уменьшенном измерении.
Какое утверждение, в отношении операции среза и сечения (Slicing and Dicing), является верным?
Правильный ответ: Cрез(slice) - это процесс извлечения вложенного куба связанной информации, а сечение(Dise) - анализ этого вложенного куба.
Какое утверждение, касающееся интерактивной аналитической обработки (OLAP), НЕПРАВИЛЬНО?
Правильный ответ: Ежедневно хранит последние транзакционные данные, связанные с вашей заявкой
Какое хранилище данных будет лучше всего поддерживать ad-hoc запросы о квартальных тенденциях?
Правильный ответ: Витрина данных (Data Mart).
Какой алгоритм используется для поиска корреляций между различными атрибутами в наборе данных? (
Правильный ответ: Алгоритм ассоциации
Какой аспект теоремы CAP позволяет обеспечить согласованность и доступность данных, но не обеспечивает их устойчивость к разделению.
Правильный ответ: AP (Availability, Partition tolerance).
Какой дистрибутив Linux может быть использован для установки Cassandra?
Правильный ответ: Все
Какой другой демон работает на каждом подчиненном узле, кроме TaskTracker
Правильный ответ: Datanode
Какой из компонентов Hadoop делает ETL обработку?
Правильный ответ: Sqoop
Какой из компонентов данного Hadoop дает обработку ETL?
Правильный ответ: Sqoop
Какой из методов кластеризации моделирует отдельные текстовые элементы как точки векторного пространства для интеллектуального анализа текста
Правильный ответ: Иерархическая агломерация
Какой из подходов метаданных помогает в интеграции с инструментами мультивендора наряду с гибкостью?
Правильный ответ: Децентрализованный или обменный подход
Какой из следующих HCatalog поддерживает все Hive, которые не требуют выполнения MapReduce?
Правильный ответ: CLI
Какой из следующих методов BI может предсказать значение для конкретного атрибута элемента данных?
Правильный ответ: Прогнозное моделирование.
Какой из следующих методов изменяет данные без существенного снижения точности?
Правильный ответ: Кодирование
Какой из следующих методов обычно определяется прошлым опытом
Правильный ответ: Кластеризация
Какой из следующих методов подходит для обработки явных знаний
Правильный ответ: Ближайшего соседа
Какой из следующих методов является стандартным для построения хранилища данных?
Правильный ответ: Extract, Transform, Load
Какой из следующих операторов используется для просмотра пошагового выполнения ряда операторов?
Правильный ответ: ILLUSTRATE
Какой из следующих операторов используется для просмотра пошагового выполнения ряда операторов?
Правильный ответ: ILLUSTRATE
Какой из следующих операторов используется для просмотра схемы отношения?
Правильный ответ: DESCRIBE
Какой из следующих типов баз данных является базой NoSQL?
Правильный ответ: Документная база данных.
Какой из следующих типов баз данных является наиболее простой базой данных NoSQL?
Правильный ответ: Тип «ключ-значение».
Какой из элементов архитектуры бизнес-аналитики для обсуждения с конечными пользователями является наиболее необходимым
Правильный ответ: Требования к визуализации
Какой из этих алгоритмов используется для механизма рекомендаций на основе анализа рынка?
Правильный ответ: Алгоритм ассоциации
Какой из этих алгоритмов поможет в сопоставлении с образцом?
Правильный ответ: MODEL
Какой из этих форматов использует Sqoop для импорта данных из SQL в Hadoop?
Правильный ответ: Любой текстовый формат
Какой инструмент используется для запросов к хранилищу данных?
Правильный ответ: Инструменты сбора данных (Data-mining tools).
Какой инструмент используется для передачи данных между Hadoop и RDBMS?
Правильный ответ: Sqoop
Какой компонент Yarn отвечает за согласование подходящих контейнеров ресурсов с планировщиком, отслеживает их состояние и мониторит их выполнение?
Правильный ответ: Application Manager
Какой компонент Yarn отвечает за согласование подходящих контейнеров ресурсов с планировщиком, отслеживает их состояние и мониторит их выполнение?
Правильный ответ: Application Manager
Какой метод будет декомпозировать код продукта свободной формы, имеющий информацию о размере и цвете
Правильный ответ: Parsing
Какой метод кластеризации моделирует отдельные текстовые элементы как точки векторного пространства для интеллектуального анализа текста
Правильный ответ: Иерархическая агломерация
Какой метод обычно используется, чтобы минимизировать влияние сбоя диска в онлайн-хранилище больших данных
Правильный ответ: Зеркальное отображение
Какой модуль системы ERP имеет управление операциями, сведения о времени и расходах?
Правильный ответ: Проектный.
Какой модуль системы ERP содержит организацию работ, временные и материальные затраты
Правильный ответ: Проекты
Какой по умолчанию номер порта у NameNode?
Правильный ответ: 50070
Какой протокол используется для передачи информации о тайм-ауте между узлами?
Правильный ответ: NTP
Какой процент памяти является пороговым значением по умолчанию, используемым для записи самой большой Memtables?
Правильный ответ: 75.0
Какой процесс нельзя категорировать под ETL?
Правильный ответ: Визуализация данных
Какой сценарий (требование) лучше всего подходит для использования NoSQL?
Правильный ответ: При работе с большими массивами данных.
Какой термин описывает расширение аналитического отчета, чтобы показать детали по одному измерению?
Правильный ответ: Детализация (Drill-down).
Какой термин относится к объединению всей информации в единую понятную пользователю форму, такую как наборы, списки или графики, так, чтобы в заданном шаблоне
Правильный ответ: Aggregation
Какой термин относится к риску ошибки типа I при проверке гипотезы?
Правильный ответ: Уровень значимости
Какой тип OLAP обеспечивает более медленный ответ на запрос?
Правильный ответ: ROLAP.
Какой тип баз данных используется для хранения информации в виде сетей (например, о социальных связях)?
Правильный ответ: БД на графах.
Какой тип измерения использует «Операция с подвижным окном»?
Правильный ответ: Вырожденное измерение
Какой тип коллекции используется в Cassandra, чтобы сохранить уникальность хранимых данных?
Правильный ответ: Set
Какой тип модели используется для поиска текста
Правильный ответ: Модель ближайшего соседа
Какой тип панели инструментов измеряет цель команды, миссию организации и насколько хорошо она достигается?
Правильный ответ: Стратегический.
Какой тип проблемы подходит для использования открытого API для решения аналитической задачи
Правильный ответ: Ничего из вышеперечисленного
Какой тип соединения осуществляется с Zookeeper клиентами
Правильный ответ: TCP
Какой тип схемы имеет размеры с расширенными размерами?
Правильный ответ: Cнежинка (Snow Flake).
Какой тип узла определяет начало и конец рабочего процесса Oozie
Правильный ответ: Поток управления
Какой тип управленческой информационной системы предназначен для облегчения и поддержки потребностей руководителей в принятии решений, обеспечивая легкий доступ как к внутренним, так и к внешним данным, имеющих отношение к достижению стратегических целей организации
Правильный ответ: EIS
Какой фактор влияет на производительность на этапе определения куба OLAP?
Правильный ответ: Количество измерений.
Какой фактор обычно определяет, когда хранилище данных планируется обновить?
Правильный ответ: Бизнес-требования.
Какой фактор определяет обновление хранилища данных
Правильный ответ: Бизнес-требования
Какой фреймворк из следующих не был основан на Spark?
Правильный ответ: D-Streams
Какой шаг следует предпринять после того, как основные заголовки древовидной диаграммы были разбиты на более подробные данные?
Правильный ответ: Просмотрить диаграмму для логического потока и полноты
Какой этап интеллектуального анализа данных включает подготовку и сбор данных?
Правильный ответ: Исследование
Какой язык используется чаще всего для ETL процессов?
Правильный ответ: Sql
Какую задачу выполняет Hive?
Правильные ответы: 50% Содержит инструменты преобразования данных., 50% Генерирует код Mapreduce для анализа данных
Какую из следующих моделей данных используют Hive, Pig и Cascading?
Правильный ответ: Кортеж-ориентированную
Какую облачную платформу не поддерживает Cassandra?
Правильный ответ: Ни один из вариантов
Кем выполняются задачи, и статус сообщается в задании mapreduce?
Правильный ответ: Jobtracker
Клиент-серверная БД должна иметь сеть с подключенными клиентами и серверами вместе
Правильный ответ: Да
Клиент/сервер БД может иметь более одного сервера базы данных
Правильный ответ: Да
Клиентская/серверная БД - клиенты могут иметь собственную СУБД для обработки данных, загруженных с серверов
Правильный ответ: Да