20.2. Возможности формулирования аналитических запросов

Аналитическими запросами к базе данныхпринято называть запросы, сводные (агрегатные) результаты которых вычисляются над детальными данными, хранящимися в таблицах базы данных. В этом смысле любой запрос на языке SQL, результат которого основан на вычислении агрегатных функций, можно назвать аналитическим. Характерная особенность аналитических запросов состоит в том, что, как правило, они применяются к большим по объему базам данных, и выполнение таких запросов вызывает существенные накладные расходы СУБД.

В этом курсе мы не будем подробно обсуждать возможности языка SQL, предназначенные для поддержки оперативной аналитической обработки баз данных (OLAP – on-line analytical processing). Рассмотрим только самые основные средства, опираясь на простые примеры. Для этих примеров предположим, что таблицаEMPсодержит следующий набор строк (покажем содержимое только тех столбцов, которые потребуются в примерах, причем для простоты будем считать, что в столбцеEMP_DATEсодержится не полная дата, а только год рождения служащего):

EMP
EMP_NO	DEPT_NO	EMP_BDATE	EMP_SAL
2440	1	1950	15000.00
2441	1	1950	16000.00
2442	1	1960	14000.00
2443	1	1960	19000.00
2444	2	1950	17000.00
2445	2	1950	16000.00
2446	2	1960	14000.00
2447	2	1960	20000.00
2448	3	1950	18000.00
2449	3	1950	13000.00
2450	3	1960	21000.00
2451	3	1960	22000.00

Представим себе, что для проведения анализа требуется узнать максимальный размер зарплаты на всем предприятии, максимальный размер зарплаты в каждом отделе и максимальный размер зарплаты служащих каждой возрастной категории каждого отдела. Если пользоваться стандартными средствами языка SQL, обсуждавшимися ранее в предложенном курсе, то для получения этих данных потребуется три запроса:

SELECT MAX (EMP_SAL) AS MAX_ENT_SAL

FROM EMP;

SELECT DEPT_NO, MAX (EMP_SAL) AS MAX_DEP_SAL

FROM EMP

GROUP BY DEPT_NO;

SELECT DEPT_NO, EMP_BDATE, MAX (EMP_SAL)

AS MAX_DEP_BDATE_SAL

FROM EMP

GROUP BY DEPT_NO, EMP_BDATE;

При выполнении запросов будут получены следующие результирующие таблицы:

MAX_ENT_SAL

22000.00

DEPT_NO	MAX_DEP_SAL
1	19000.00
2	20000.00
3	22000.00
DEPT_NO	EMP_BDATE	MAX_DEP_BDATE_SAL
1	1950	16000.00
1	1960	19000.00
2	1950	17000.00
2	1960	20000.00
3	1950	18000.00
3	1960	22000.00

20.2.1. Раздел group by rollup

Эти же результаты можно получить при выполнении единственного запроса, если в его формулировке использовать специальный вид группировкиROLLUP(пример 20.1):

SELECT DEPT_NO, EMP_BDATE, MAX (EMP_SAL) AS MAX_SAL

FROM EMP

GROUP BY ROLLUP (DEPT_NO, EMP_BDATE);

Сначала покажем, как будет выглядеть результирующая таблица этого запроса, а потом приведем развернутое пояснение действия новой конструкции. В результате выполнения запроса будет получена таблица, показанная на рис. 20.1.

Как видно, в столбцеMAX_SALпервой строки¹⁵⁰⁾результирующей таблицы находится максимальное значение зарплаты служащих на всем предприятии. СтолбцыDEPT_NOиEMP_BDATEв этой строке содержат неопределенное значение, поскольку значениеMAX_SALне привязано к каким-либо отделу и возрастной категории. В столбцеMAX_SALследующих трех строк находятся максимальные значения зарплаты служащих отделов с номерами 1, 2 и 3 соответственно, что показывают значения столбцаDEPT_NO. СтолбецEMP_BDATEв этих строках содержит неопределенное значение, поскольку значениеMAX_SALне привязано к какой-либо возрастной категории. Наконец, в столбцеMAX_SALв последних шести строках содержатся максимальные значения зарплаты служащих каждой возрастной категории каждого отдела, что показывают значения столбцовDEPT_NOиEMP_BDATE, которые теперь содержат соответствующий номер отдела и год рождения служащих.

150 Конечно, мы показали строки результирующей таблицы, расположенные в удобном для нас порядке только для упрощения объяснений. В действительности, строки результирующей таблицы (как обычно) будут расположены в порядке, определяемом системой. Чтобы добиться в точности такого порядка расположения строк, как это показано на рис. 20.1 , к формулировке запроса из примера 20.1 нужно добавить раздел ORDER BY DEPT_NO , EMP_BDATE .

Рис. 20.1.Результат запроса с разделом GROUP BY ROLLUP

В общем случае пусть раздел группирn), гдеcname_i(i = 1, 2, ... , n) – имя столбца таблицы-результата разделаFROMзапроса. Пусть в списке выборки используются вызовы агрегатных функцийAGG₁, AGG₂, ... , AGG_mнад значениями столбцов, не входящих в список группировки, а также имена столбцовcname₁, cname₂, ... , cname_n. Тогда запрос выполняется следующим образом. Первая строка результата (первый набор строк результирующей таблицы) производится таким образом, как если бы в запросе вообще отсутствовал разделGROUP BY, т.е. агрегатные функцииAGG₁, AGG₂, ... , AGG_mвычисляются над значениями всех строк таблицы. Значением столбцовcname₁, cname₂, ... , cname_nв этой строке являетсяNULL. (i+1)-й набор строк результата формируется так, как если бы раздел группировки запроса имел видGROUP BY(cname₁, cname₂, ... , cname_i) (1i<n). Во всех этих строках значением столбцовcname₍_i₊₁₎, ... , cname_nявляетсяNULL. Наконец, (n+1)-й набор строк результата формируется так, как если бы раздел группировки запроса имел видGROUP BY(cname₁, cname₂, ... , cname_n).

Может показаться, что запросы, содержащие раздел GROUP BY ROLLUP, настолько сложны, что их выполнение будет занимать чрезмерно большое время. Это ощущение является ложным. В действительности, при выполнении запросов с обычной группировкой видаGROUP BY cname₁, cname₂, ... , cname_n, как правило, последовательно выполняется сортировка строк таблицы-результата разделаFROMв соответствии со значениями столбцаcname₁, затем – в соответствии со значениями столбцаcname₂и т. д., и в заключение – сортировка в соответствии со значениями столбцаcname_n. Во время выполнения каждой сортировки можно заодно вычислять значения агрегатных функций. Так что стоимость выполнения запроса, содержащего разделGROUP BY ROLLUP, лишь незначительно отличается от стоимости выполнения запроса с обычной группировкой.

<<< < Предыдущая 163 164 165 166 167 168 169 170 171 172 173 174175 / 229175 176 177 178 179 180 181 182 183 184 185 186 187 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
09.05.20158.87 Mб31Бабанова_Стратегический анализ.pdf
#
21.09.2019215.55 Кб14бабуля.doc
#
29.07.2019141.31 Кб10база ОВСИС (1).doc
#
23.11.20188.88 Mб71БАЗА ТЕСТОВ ПО ЭКОНОМИКИ ПРЕДПРИЯТИЯ.docx
#
10.08.201945.51 Кб17БАЗА ФИЛОСОФИЯ с ответами не все.docx
#
16.03.20165.67 Mб114Базы данных.doc
#
25.08.2019904.31 Кб21Базы данных_конспект 1-15 и 23-26 стр.docx
#
07.11.2019504.32 Кб16Байкал.doc
#
08.05.2015779.78 Кб66БАКАЛАВРЫ-КПРФ.doc
#
22.09.201933.57 Кб5Бальный этикет XIX века.docx
#
09.05.20152.93 Mб40Баринов - Антикризисное управление.pdf