Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Математ методы обработки эксперимента Гл3_с27-4...doc
Скачиваний:
8
Добавлен:
21.08.2019
Размер:
51.39 Mб
Скачать

Прямолинейная зависимость

Существует несколько способов определения прямой линии для выражения функционального отношения между двумя перемен­ными. Из бесчисленного множества прямых линий, которые можно провести на плоскости, следует выбрать одну, наилучшим образом соответствующую нашим экспериментальным данным, т. е. опре­делить параметры уравнения этой линии.

С такого рода задачами часто встречаются в аналитической ра­боте. Например, при определении параметров градуировочного графика, который наилучшим образом соответствует ре­зультатам анализов, выполненных для серии эталонов.

Результаты этих анализов могут быть представлены системой уравнений

где хi концентрация определяемого компонента в i-том эта­лоне;

уiрезультаты прямых измерений, связанных с анализом i -того эталона;

а и bпараметры градуировочного графика.

В общем случае, мы имеем m уравнений для определения двух неизвестных величин а и b. Так как уi определяется с ошибкой, то нет ни одной системы значений а и b, которые бы строго удовлет­воряли всем т уравнениям. Поэтому задача сводится к отысканию таких значений для параметров а и b, которые бы только наилуч­шим образом удовлетворяли всем уравнениям. В основе методики определения коэффициентов а и b лежит способ наименьших квадратов.

Способ наименьших квадратов сводится к определению параметров такой прямой, для которой сумма квадратов разностей между экспериментальными значени­ями и соответствующими значениями на прямой минимальна

(3.25)

Заменив ух через а + bх, получим функцию от параметров а и b

Приравняв нулю первые производные по а и b от суммы квад­ратов отклонений, найдем значения а и b , удовлетворяющие минимуму функций

откуда

(3.26)

Решая эти уравнения относительно а и b, находим:

(3.27)

При вычислении параметров прямой линии данные распола­гают так, как это показано в табл. 3.8, в которой приведены ре­зультаты опробования восьми камер основной цинковой флотации.

Таблица 3.8

Расчет параметров прямой линии

Здесь ε - коэффициент скорости флотации Опробование проводилось в течение 4 смен. По результатам опробования определены значения коэффициента кинетики

в каждой камере для всех смен (см. табл.3.8, графы 2—5). Для систематизации полученных данных строим поле корреляции (см. рис.3.11). Расположение точек в корреляционном поле свидетельствует о наличии отчетливо выраженной зависимости между номером камеры к и коэффициентом кинетики у , т. е. между к и у. Точки, расположенные в левой части поля, оказываются ниже то­чек, расположенных справа: по мере увеличения абсцисс ординаты точек тоже увеличиваются. Определив средние значения ординат для каждой камеры (см. табл. 3.8, графу 6) и соединив их пря­мыми линиями, получим ломаную, представляющую собой эмпири­ческую линию регрессии.

Характер расположения точек на корре­ляционном поле нам подсказывает, что теоре-тическая линия рег­рессии является прямой. Для определения неизвестных параметров пря-

мой а и b подсчитываем суммы и по формуле (3.27) находим значения неиз-вестных а и b. Отсюда уравнение искомой прямой

Рис. 3.11. Экспериментальные (1) и расчетные (2) кривые зависимости

между временем флотации и коэффициентом кинетики

Придавая переменной х различные значения, получаем из уравнения соответствую-щие значения ух (см. табл.3.8, графу 9) для всех х, записанных в графе 1. По этим данным чертим прямую линию регрессии (см. рис. 3.11, прямая 2), которая может быть использована для прибли­женной оценки скорости флотации в любой из восьми камер флотации.

Выражение зависимости у =f(х), где символ f(х) обозначает подбираемую форму кри-вой, называется уравнением регрессии.

Если вычислить разности между фактическими наблюдениями и значениями, вычисленными по этому уравнению, возвести их в квадрат и суммировать, то сумма должна быть меньше, чем сумма квадратов разностей, получаемая для какой-либо другой прямой линии.

Каков физический смысл параметров уравнения (3.27) а = 0,062 и b = 0,021, вычисленных на основании выборки, состоя­щей из 32 наблюдений?

Значение а представляет собой ординату при x=0, т. е. величину ожидаемого извлечения до первой камеры, например в чане перемешивания. Но, поскольку в чане концентрат не снимают, такое утверждение представляется абсурдным. Коэф­фициент а, таким образом, не имеет значения сам по себе, пред­ставляя в данном примере лишь общее начало для отсчета тех отрезков ординат, в которые уже вложен определенный смысл. Показатель b, напротив, всегда имеет определенное смысловое значение. Он говорит о том, насколько в среднем для всех наблю­дений изменяется у при изменении к на одну единицу. В нашем примере величина 0,021 означает, что при возрастании х на одну единицу, равную одной камере, скорость флотации, выраженная в

увеличивается на 0,021.

Криволинейная зависимость

Далеко не все зависимости могут быть хорошо выражены пря­мой линией. Иногда их правильнее представлять кривыми различ­ных типов, например:

Выбор уравнения для различных совокупностей данных зависит от логического ана-лиза. С помощью многочленов достаточно вы­сокого порядка можно воспроизвести значение произвольной функ­ции внутри некоторого интервала.

Математическая формула, освобождающая эмпирический мате­риал от случайных зиг-загов и позволяющая установить прибли­женно действительный тип зависимости, способ-ствует более глубо­кому проникновению в механизм действия факторов, обусловли­вающих эту зависимость.

Требование наименьших квадратов сохраняется и при расчете параметров криволи-нейной регрессии.

Для параболы

(3.28)

параметры а, b и с опреде­ляются из соотношения

откуда после преобразований получаем

(3.29)

Решая ее, находим искомые значения параметров а, b и с уравнения регрессии.

Таким образом, способ наименьших квадратов позволяет иссле­дователю определить, каким образом происходят изменения значе­ний одной переменной в связи с изменениями значений другой пе­ременной.

Следует отметить, что независимо от того, хорошо или плохо подобрана формула, всякая попытка производить оценки вне пре­делов наблюдений путем экстраполяции может дать результат, ко­торый можно только логически предполагать. Статистический же анализ может указать на то, что имеется зависимость в пределах диапазона наблюдений, используемых для этого анализа, и только в пределах определенного доверительного интервала. В качестве примера на рис. 3.12 приведена нелинейная зависимость между временем старения реа­гента и его оптической плот­ностью.

Рис. 3.12. Эксперименталь­ная (1) и расчетная (2) кривые зависимости меж­ду временем старения реа­гента и оптической

плот­ностью

Парная корреляция

Для характеристики тесноты связи между величинами х и у пользуются безразмерной величиной, называемой коэффициентом корреляции rху.

Коэффициент корреляции изменяется в пределах

-1<Гху<1.

Положительная корреляция между случайными величинами ха­рактеризует такую вероятностную зависимость между ними, когда при возрастании одной из них другая в среднем будет возрастать. Отрицательная корреляция характеризует такую зависимость, когда при возрастании одной случайной величины другая в среднем будет убывать. Величина коэффициента корреляции определяет тесноту связи между случайными величинами; чем ближе значение Гху к единице, тем теснее статистическая связь. Близкое к нулю значе­ние коэффициента корреляции свидетельствует об отсутствии ли­нейной связи.

О наличии или отсутствии связи между двумя случайными ве­личинами в первом приближении судят по графику (корреляцион­ному полю), на котором в виде точек изображены все полученные из опыта значения пар случайных величин. На рис. 3.13 приве­дены примеры случайных величин с положительной и отрицатель­ной корреляцией.

Будем рассматривать двумерные наблюдения, т. е. такие наблю­дения, которые дают значения двух случайных величин х и у. До­пустим, что для обоих признаков х и у выполняется гипотеза нор­мальности. В этом случае говорят, что имеет место двумерное нор­мальное распределение. Нам нужно проверить гипотезу о наличии стохастической линейной связи между двумя случайными перемен­ными x и у.

Рис. 3.13. Диаграммы рассеяния наблюде­ний при различных тесноте и видах связей между случайными величинами х и у:

а — тесная положительная связь; б — слабая отрица­тельная связь; в — отсутствие связи

Коэффициент корреляции rху определяется следующим образом:

(3.30)

При вычислении коэффициента корреляции находят следующие суммы квадратов:

значения которых подставляют в формулу (3.30).

При вычислениях можно произвольным образом смещать на­чало отсчетов для обеих переменных. В табл.3.11 приведён пример расчета парного коэффициента корреляции.

Т аблица 3.11

Пример расчета парного коэффициента корреляции

В табл. 3.11 приведены данные по входному x и выходному y параметрам объекта исследования.

Определим коэффициент корреляции между этими факторами.

Расчеты становятся менее громоздкими, если каждое из чисел графы 1 уменьшить на 25, а числа графы 2 — на 8; полученные но­вые числа записаны в графах 3 и 4.

По полученным в таблице данным имеем:

так что коэффициент корреляции равен

Графы 8 и 9 служат для проверки правильности вычислений: должно выполняться равенство

В данном случае

что совпадает с

Не всякое значение коэффициента корреляции является доста­точным для статистически обоснованных выводов о наличии кор­реляционной связи между исследуемыми переменными. Надеж­ность статистических характеристик ослабевает с уменьшением объема выборки, а поэтому принципиально возможны случаи, когда отклонение от нуля полученной величины выборочного коэффи­циента корреляции оказывается статистически незначимым.

Связь можно считать достоверной, если

где |r | абсолютное значение коэффициента корреляции;

tкоэффициент, соответствующий определенному уровню значимости (t критерий);

Sr — среднеквадратичное отклонение коэффициента корреля­ции.

Средняя квадратичная ошибка коэффициента корреляции опре­деляется по формуле

где п — число замеров.

Критерий надежности коэффициента корреляции рассчитывается как

Если μ>2,6, связь между переменными считается значимой.

Для оценки значимости коэффициентов корреляции можно также воспользоваться специальной таблицей.

Коэффициент корреляции имеет четкий смысл как характери­стика тесноты связи между исследуемыми случайными величинами лишь в случае совместной нормальной распределенности исследуе­мых параметров. Во всех остальных случаях коэффициент корре­ляции можно признать лишь одной из возможных характеристик степени тесноты связи.

Кроме того, в случае нелинейной связи между переменными коэффициент корреляции также теряет свой смысл и для оценки связи используют корреляционное отношение

Для его вычисления необходимо найти следующие дисперсии:

— средний квадрат отклонений (по ординате) точек корреляционного поля от линии = с;

— средний квадрат отклонений точек корреляционного поля от эмпирической линии ре­грессии;

— средний квадрат отклонений эмпирической

линии регрессии от линии = с.

Корреляционное отношение показывает, какая часть полной ко­леблемости у обусловлена изменчивостью аргумента х. Корень квадратный из величины η2 называется эмпирическим корреляци­онным отношением у по х.

Величина η2 (например, η2 = 0,55) свидетельствует, что дисперсия у, свя­занная с измен-чивостью х, составляет 55% полной дисперсии у. Следовательно, колеблемость выхода пара-метра для дан­ного экспериментального материала на 55% обусловлена изменчивостью х и на 45% — влиянием прочих факторов, варьирующих независимо от х.

Вычисление корреляционного отношения позволяет решить во­прос, в какой мере соблю-дается строгая функциональная зависи­мость в изменении переменных у и х. Коэффициент корреляции, являющийся мерой, так называемой спрямленной зависимости пере­менных, имеет более узкий смысл, сохраняющийся независимо от того, прямолинейна или криволинейна действительная теоретиче­ская линия регрессии у по х. Однако в первом случае коэффициент корреляции является одновременно и правильным измерителем тес­ноты корреляционной зави-симости. Во втором же случае величина коэффициента корреляции может оказаться значи-тельно меньше корреляционного отношения, рассчитанного в предположении кри­волинейной зависимости, если последняя сильно искажается в ре­зультате ее замены прямой линией.

Измерение связи между переменными обычно начинают с вы­числения коэффициента корреляции. Так как даже в случае кри­волинейной зависимости он характеризует степень при-ближения корреляционной зависимости к функциональной зависимости и дает ориентировочное представление о тесноте корреляционной зави­симости.

Используя коэффициент корреляции, кроме того, легко рассчи­тать параметры прямой линии регрессии у по х

Это осуществляется с помощью формул

Рассчитаем параметры линейной регрессии для следующих данных:

= 104,16; =107,62; Sx=24,26; SУ =23,12; rуx = 0,653.

Откуда получим:

Следует отметить, что к одному парному ряду наблюдений мо­гут быть подобраны две линии регрессии

и один коэффициент корреляции, имеющий определенное отноше­ние к обеим линиям регрессии. Коэффициент показывает, на­сколько эти линии приближаются одна к другой. Чем теснее кор­реляции, тем ближе две линии друг к другу, чем слабее — тем больше они расходятся.

Величина коэффициента корреляции может быть вычислена по угловому коэффициенту двух линий

Из этого уравнения следует, что когда r=1,

и, следовательно, обе линии регрессии совпадают; при r = 0 эти линии располагаются под прямым углом одна к другой.

Это свойство двух линий регрессии может быть использовано для оценки тесноты корреляционной связи графически.

Множественная регрессия

При изучении корреляции трех переменных одна из них рас­сматривается как функция, две другие — как аргументы. При на­хождении поверхности множественной регрессии ограничимся пред­положением, что эта регрессия линейная, вида

. (3.31)

С геометрической точки зрения это уравнение определяет плос­кость в пространстве переменных Х1, Х2, У. Расчет параметров а, b и с производим по способу наименьших квадратов. Необходимо, чтобы сумма квадратов отклонений фактических уi от Yi, вычисленных по уравнению регрессии, была наименьшей

Формула множественной регрессии с тремя переменными имеет следующий вид:

Коэффициенты b1 и b2 множественной регрессии находятся из системы линейных уравнений

где приняты следующие обозначения:

Следует отметить физический смысл коэффициентов множест­венной регрессии. Например, коэффициент b1 отвечает на вопрос, на сколько единиц в среднем изменяется Y, если X1 изменяется на одну единицу в предположении, что X2 при этом сохраняет посто­янное значение.

Для оценки тесноты связи между несколькими переменными применяют коэффициент множественной корреляции R. Так для трех переменных он равен

(3.32)

Из формулы ясно, что Rryx1 и R ryx2 , всегда положителен и находится в пределах от 0 до 1. Множественная регрессия приме­нима к анализу любого числа переменных, однако объем вычисле­ний с увеличением числа переменных резко возрастает.

Частная корреляция и частная регрессия

Методы частной корреляции и регрессии позволяют установить взаимные зависимости для группы переменных и показать, как свя­зана между собой любая пара из них, если исключить влияние остальных переменных.

Общая формула для вычисления частных коэффициентов корре­ляции имеет такой вид:

(3.33)

Здесь три переменные занумерованы числами 1, 2 и 3. Наша задача состоит в том, чтобы определить корреляцию между пере­менными 1 и 2 при исключении переменной 3. Это будет частная корреляция между 1 и 2. Соответствующий коэффициент частной корреляции обозначается r 12.3, где дается указание на исключение переменной 3. Символы r12, r13 и r23 относятся к корреляциям, определяемым непосредственно между каждой парой переменных.

Такие же коэффициенты r13.2 и r23.1 легко получить перестанов­кой индексов.

Для примера рассмотрим парные коэффициенты кор­реляции:

ryx1 = 0,3673; ryx2 = 0,5409 и rx2x1 = 0,2504.

Частные коэффициенты корреляции равны

При четырех переменных можно сначала исключить перемен­ную 4 путем трехкратного применения приведенной выше формулы для определения r12.4, r13.4 и r23.4. Применяя эту же самую формулу снова к трем коэффициентам, получим

(3.34)

Следует отметить, что объем вычислений очень быстро возра­стает по мере увеличения числа исключаемых переменных.

Ограничимся пока рассмотрением пары независимых перемен­ных x1 и x2. Согласно обоб-щенной концепции регрессионного ана­лиза предположим, что для любой заданной пары зна-чений x1 и x2. измерения у имеют нормальное распределение с некоторым генеральным сред-ним значением (скажем, μx1x2) и дисперсией σ2, не зависящей от обеих переменных х1 и x2 , что генеральное среднее значение у можно выразить через х1 и x2 при помощи приближен-ного уравнения регрессии в виде

(3.35)

Величины b1 и b2 есть соответственно частные коэффициенты регрессии у относи-тельно х1 и у относительно х2. Это простейшая применяемая на практике математическая модель.

41