Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
voprosy_analiz_dannykh.doc
Скачиваний:
9
Добавлен:
16.08.2019
Размер:
948.74 Кб
Скачать

Математичний опис

У математичних термінах, для даної статистичної змінної X з вибірковим розподілом F, вибірка обсягу n = 4,5…  являє собою сукупність n незалежних вимірів, показникам якої приписуються статистичні ймовірності.

Вибірка представляє n експериментів, в яких можна виміряти ту ж змінну. Наприклад, якщо X представляє висоту індивідуума і ми вимірюємо n індивідуумів, Xi буде висотою i-того індивідуума. Відзначте, що вибірка випадкових змінних (тобто набір вимірних функцій) не повинна бути змішаною з реалізаціями цих змінних (які є значеннями, що приймають ці випадкові змінні). Іншими словами, Xi — функція, що представляє собою вимірювання в i-тому експерименті і xi = Xi(ω) — значення, яке ми фактично отримуємо, роблячи вимірювання.

Характеристикою положення для вибіркового розподілу є вибіркове середнє, а характеристиками розсіювання вибіркового розподілу — вибіркові дисперсії. Числовою характеристикою вибірки є також розмах її значень.

Поняття вибірки включає процес того, як отримуються дані (тобто, випадкові змінні). Це необхідно робити таким чином, щоб можна було зробити математичний аналіз вибірок, як і отримати статистичні дані, розраховані на їх основі, наприклад вибіркові середні, коваріацію вибірок. Крім того, такі статистичні дані повинні мати місце і для всієї популяції.

[Ред.]Обсяг вибірки

Обcяг вибірки — число випадків, включених у вибіркову сукупність. Із статистичних міркувань рекомендується, щоб число випадків складало не менше 30—35.

[Ред.]Залежні і незалежні вибірки

При порівнянні двох (і більш) вибірок важливим параметром є їх залежність. Якщо можна встановити гомоморфну пару (тобто, коли одному випадку з вибірки X відповідає один і лише один випадок з вибірки Y) для кожного випадку в двох вибірках (і цей взаємозв'язок є важливим для вимірюваної на вибірках ознаки), такі вибірки називаються залежними. Приклади залежних вибірок:

  • пари близнят

  • два вимірювання якої-небудь ознаки до і після експериментальної дії

  • чоловіки і дружини

  • тощо

  1. Описові статистики

Описова статистика

1) сукупність методів і форм представлення інформації (графіки, виміри показників), що дозволяють охарактеризувати вибірки даних. Див. також Індуктивна статистика. (примечание - текстоткорректирован, есть отличия от оригинала – Горяинов А.Н.)

  • Статистична сукупність — це маса однорідних в певному відношенні елементів, які мають єдину якісну основу, але різняться між собою певними ознаками і підлягають певному закону розподілу. Статистична сукупність — це певна множина елементів, поєднана умовами існування і розвитку.

      1. Однорідна сукупність — якщо одна чи декілька ознак, що вивчаються, є загальними для всіх одиниць.

      2. Різнорідна сукупність об'єднує явища різного типу.

  • Одиниця сукупності - це первинний елемент статистичної сукупності, який є носієм ознак, що підлягають реєстрації і є основою обліку.

  • Ознака — властивість окремої одиниці сукупності.

    • Якісні ознаки (атрибутивні ознаки) виражаються в вигляді понять, визначень, які характеризують їх суть, стан або якість. Наприклад, сорт продукції, професія, сімейний статус.

    • Кількісні ознаки виражають окремі значення якісних ознак у числовому виразі.

      1. Дискретні — ознаки, виражені окремими цілими числами, без проміжних значень.

      2. Неперервні — ознаки, що можуть набувати будь-яких значень у певних чисел.

    • Прямі — характеризують об'єкт дослідження безпосередньо (вік осіб, кількість присутніх в аудиторії).

    • Непрямі — ознаки, що не належать безпосередньо досліджуваному об'єкту (чи сукупності), а які належать іншій сукупності, що входить в дану.

      1. Багатоваріантні — перш за все характеризуються рангами (шкалою рангів) від більшого до меншого (напр. дуже низький, низький, середній, високий, дуже високий).

      2. Альтернативні — взаємовиключаючі значення: так-ні, позитивне-негативне.

    • Інтервальні — це ознаки, які характеризують результат процесів.

    • Моментні — характеризують об'єкт в певний момент часу.

    • Окремі значення кількісних ознак називаються варіантами.

      1. Первинні варіанти характеризують одиницю сукупності в цілому: абсолютні значення, вимірені, розраховані.

      2. Вторинні варіанти (похідні, розрахункові) — дані, що не можливо перевірити, оскільки вони взяті з певних джерел.

  • Адитивність — підсумовувати, складати.

  • Статистичні показники — це число в сукупності з набором ознак, що характеризують обставини, до яких вони відносяться, що, де, коли, і яким чином підлягають вимірюванню. Статистичний показник — це кількісна характеристика соціально-економічних явищ і процесів в умовах якісної визначеності.

  • Статистичні дані — це сукупність показників, отриманих внаслідок статистичного спостереження або обробки даних.

  • Статистична закономірність — це закономірність, в якій необхідність пов'язана в кожному окремому явищі з випадковістю, і лише в сукупності явищ виявляє себе як закон.

  • Система статистичних показників — це сукупність статистичних показників, які відображають взаємозв'язки, які об'єктивно існують між явищами.

Статистика — наука, яка вивчає методи кількісного охоплення і дослідження масових, зокрема суспільних, явищ і процесів. Збирання інформації про них сягає найдавніших часів. Вона мала спершу наскрізь практичний характер; з XIX ст. статистика поступово здобуває солідну наукову основу, коли почалося впорядкування і вдосконалення статистичних методів. З них розвинулися дві основні: описова (дескриптивна) — збирання інформації, перевірка її якості, її інтерпретація, зображення статистичного матеріалу; та індуктивна — застосування теорії ймовірностізакону великих чисел. Статистика поділяється за своїм змістом на демографічну, економічну, фінансову, соціальну, санітарну, судову, біологічну, технічну тощо; математична статистика вивчає математичні методи систематизації, обробки й використання статистичних даних для наукових і практичних висновків

Описова статистика займається добором кількісної інформації, необхідної (або цікавої) для різних людей. Такою є спортивна інформація, відомості про середній рівень заробітної плати в державі, середньорічну температуру в певному регіоні тощо.

Великі масиви даних, перш ніж вони вивчатимуться людиною, мають узагальнюватися або згортатися. Саме це робить описова статистика, яка описує, узагальнює або зводить до бажаного виду властивості масивів даних.

За допомогою пояснювальної статистики з добутих статичних результатів роблять певні висновки, складають прогнози. Предметом вивчення статистики є такі об'єкти, як кількість і склад населення, трудові ресурси суспільства (їх розподіл і використання), національне багатство, виробництво і розподіл суспільного продукту і національного прибутку, матеріальний достаток населення, освіта, культура, охорона здоров'я, показники статистики органів державного управління і громадських організацій.

  1. Точкові та інтервальні оцінки

Точкові та інтервальні оцінки  параметрів розподілу

Оцінка параметра розподілу сукупності   у загальному випад- ку є випадковою величиною, яка визначається за даними вибірки і використовується замість невідомого значення параметра, який потрібно оцінити.

Оцінка називається обґрунтованою, якщо вона збігається за ймовірністю до відповідного параметра при 

Оцінка називається незміщеною, якщо її математичне сподівання збігається зі значенням параметра.

У різі вибору з усіх відомих незміщених обґрунтованих оцінок певної оцінки потрібно зазначити критерій, за яким зроблено вибір.

Найчастіше застосовується критерій, який полягає у виборі оцінки, що має найменшу можливу дисперсію. Така оцінка називається ефективною. Нижня межа дисперсії незміщеної оцінки параметра   (яку позначатимемо  ), подається формулою:

де   — щільність розподілу випадкової величини (для дискретної випадкової величини  ).

Оцінки параметрів розподілу знаходять методами максималь- ної правдоподібності і моментів. Метод максимальної правдоподібності полягає ось у чому. Нехай закон розподілу випадкової величини подається через параметр  , який у загальному випадку k-вимірний. Тоді для вибірки   спільний закон розподілу подається функцією правдоподібності (запишемо, наприклад, для неперервних величин):

За оцінки максимальної правдоподібності параметрів   беруться вибіркові функції, які є розв’язком системи рівнянь:

Застосування методу моментів ґрунтується на збіжності (за ймовірністю) статистичних моментів розподілу до відповідних теоретичних моментів розподілу, які в такому разі мають існувати. Як відомо, теоретичні моменти розподілу виражаються через параметри розподілу. Складаємо систему kрівнянь, в якій попарно прирівнюємо відповідні теоретичні і статистичні моменти. Розв’язком цієї системи є оцінки для параметрів розподілу.

Нехай маємо точкову оцінку   параметра  . Знайдемо для па- раметра інтервальну оцінку, скориставшись умовою   В такому разі  називається точністю оцінки, а  — її надійні- стю. Тоді інтервальна оцінка (довірчий інтервал) для параметра  набирає вигляду   Параметр  — не випадкова величина, надійність  можна розглядати як імовірність того, що випадковий інтервал покриває дійсне значення параметра. Величини   тісно зв’язані з обсягом вибірки   Якщо задати дві з цих величин, то можна знайти третю. Для цього потрібно знати закон розподілу для 

  1. . Точна та приблизна побудова довірчих інтервалів.

Довірчий інтервал — інтервал, у межах якого з заданою довірчою імовірністю можна чекати значення оцінюваної (шуканої) випадкової величини. Застосовується для більш повної оцінки точності в порівнянні з точковою оцінкою.

Наприклад, можна сказати: результати опитування показали, що кандидат набере на виборах 40% голосів. Проте математично правильніше сказати: з імовірністю 90% кількість голосів набраних кандидатом згідно з опитуваннями лежить в інтервалі 40 3%. Тут довірчий інтервал 3%.

Точкове оцінювання  Як і відомо, вибірка х 1, х 2, х 3, ..., х n є реалізацією випадок-ного вектора (Х 1; Х 2; ... Х n). Це значить, що кожна числова характеристика вибірки є реалізація випадкової величини, яка від вибірки до вибірки може приймати різні значення і, отже, сама є випадковою. Таку випадкову величину називають вибіркової функцією або статистикою і позначають г = р. Цей запис виражає залежність вибіркової функції від випадкових компонент Х i, i =   , Вектора (Х 1; Х 2; ... Х n). Наприклад, вибірковими функціями є середнє арифметичне   , Статистична дисперсія   , Мода   , Медіана  Так як вибіркова статистика величина випадкова, то вона має закон расрпделенія, що залежить від закону розпаду випадкової величини Х в генеральній сукупності.  Нехай потрібно підібрати розподіл для досліджуваної випадкової величини Х за вибіркою х 1, х 2, х 3, ..., х n, витягнутої з генеральної сукупності   з невідомою функцією розподілу F (х). Вибравши розподіл (нормальне, біномінальної, показове або ін), виходячи з аналізу вибірки (наприклад, по вигляд гістограми або по виду полігону відносних частот), ми за даними вибірки мають оцінити параметри відповідного розподілу. Наприклад, для нормального розпо-ділення треба оцінити параметри m і   ; Для розподілу Пуасона - параметр l і т.д.  Вирішення питань про "найкращою оцінкою" невідомого параметра і становить теорію статистичного оцінювання.  Вибіркова числова характеристика, яка застосовується для отримання оцінки невідомого параметра генеральної сукупності, називається точкової оцінкою.  Наприклад, Х - середнє арифметичне, може служити оцінкою математичного сподівання М (Х) генеральної сукупності   . У принципі для невідомого параметра а може існувати багато число-вих характеристик вибірки, які цілком слушно длятого, щоб служити оцінками. Наприклад, середнє арифметичне, медіана, мода можуть здатися цілком прийнятними для оцінювання математичного сподівання М (Х) сукупності. Щоб вирішити, яка з статистик в даній безлічі найкраща, необхідно визначити деякі бажані властивості таких оцінок, тобто вказати умови, яким повинні задовольняти оцінки.  Такими умовами є: незміщеності, ефективності спроможність.  Якщо М (г) = а, то г називається незміщеної оцінкою а.  В інших випадках говорять. Що оцінка зміщена.  Незміщеності оцінки означає, що якщо використовувати цю оцінку, то в одних випадках може вийти. Що ми завищуємо шуканий параметр сукупності, в інших - занижуємо. Проте в середньому ми буде "потрапляти в ціль".  Так, наприклад, незміщеної оцінкою для математичного сподівання М (Х) = а випадкової величини Х є середня арифметична   = Р.  Дійсно,   ,  тому що результати вибірки х 1, х 2, х 3, ..., х n розглядають як n незалежних випадкових величин Х 1, Х 2, Х 3, ..., Х n, кожна з яких розподілена за тим же законом, що і випадкова величина Х.  Їли існує більше однієї незміщеної оцінки, то вибирають більш ефективну оцінку, тобто ту, для якої величина другого моменту М (г - а) 2 менше.  Оцінка г 1 називається більш ефективною, ніж оцінка г 2, якщо  М (г 1 - а) 2 <М (г 2 - а) 2.  Їли позначити через b = М (р) - а зсув оцінки, то  М (г - а) 2 = D (г) + b 2, так як М (г - М (р) + М (г) - а) 2 = М ((р - М (р)) + + М ( г) - а)) 2 = М ((р - М (р)) + b) 2 = Мг - М (р)) 2 +2 b'M (г - М (р)) + M (b 2) = = D (г) + b 2 (M (г - М (г)) = 0, M (b 2) = b 2). Тому більш ефективної оцінкою будемо вважати ту незміщене оцінку, яка має меншу дисперсію.  Зокрема, середня арифметична   = Г є найбільш ефективною оцінкою математичного сподівання М (Х) = а, так як  Всі інші оцінки М (Х) будуть володіти великими дисперсіями. Наприклад,  Мінімальну величину середньоквадратичної похибки оцінюють, використовуючи нерівність Рао-Крамера   , Де b (a) - зсув оцінки; n - обсяг вибірки; функція   носить назву інформації Фішера. Будь-яка несмещенная оцінка, а, для якої b (a) º 0 задовольняє нерівності  Таким чином, найменше можливе прапора середньоквадратичних відхилень відмінно від нуля і визначається правими частинами наведених вище нерівностей. При використанні тієї чи іншої оцінки бажано, щоб точність оцінювання збільшилася з зростанням обсягу виробленої вибірки. Гранична точність буде досягнута в тому випадку, коли чисельне значення оцінки збігається зі значенням параметра при необмеженому збільшенні обсягу вибірки. Такі оцінки буде називатися заможними.  Оцінка г називається заможної оцінкою а, якщо при n ® ¥ вона сходиться по ймовірності до а, тобто якщо   .  Наприклад, середня арифметична   = Г є заможної оцінкою математичного сподівання М (Х) = а сукупності, так як, відповідно до закону великих чисел,  Нарешті, при побудові оцінки р повинна використовуватися вся інформації, що міститься у вибірці, про невідомий параметрі а, тобто оцінка повинна бути достатньою. Якщо р - достатня оцінка. То ніяка друга оцінка не може дати про невідомому параметрі а додаткових відомостей.  При виборі оцінок слід брати до уваги перераховані свій властивості і враховувати відносну простоту обчислень. Нерідко вибирається не ефективна оцінка тільки тому, що її обчислення набагато простіше, ніж обчислення ефективної оцінки. Наприклад, при контролі якості продукції мірою розкиду сукупності часто служить вибірковий розмах, використовуваної замість більш складної і більш ефективної оцінки - вибіркового стандартного відхилення. Відзначимо, що при оцінюванні на основі малого числа спостережень розходження в ефективності оцінок невелика.  Інтервальне оцінювання  Ми розглянули оцінки невідомих параметрів закону розподілу випадкової величини Х за даними вибірки. Отримані при цьому точкові оцінки р i не збігаються (за виключення рідкісних випадків) з істинним значенням невідомих параметрів а i.Отже, завжди є деяка похибка при заміні невідомого параметра його оцінкою, тобто | Р - а | <d:   (1.1)  І якщо ця ймовірність близька до одиниці, тобто якщо   , То діапазон практично можливих значень помилки, що виникає при заміні а на, дорівнює ± d. Причому великі про абсолютну величину помилки з'являються з імовірністю e, e> 0.  Чим менше для даного e> 0 буде d> 0, тим точніше оцінка р. Зі співвідношення (1.1) видно, що ймовірність тог, що інтервал] г - d; г + d [з випадковими кінцями накриє невідомий параметр, дорівнює 1 - e . Ця ймовірність називається довірчою ймовірністю.  Випадковий інтервал, який визначається результатами спостережень, який із заданою вірогідністю а = 1 - e накриває невідомий параметр а, званий довірчим інтервалом для параметра а, відповідним довірчої ймовірності а = 1 - e.  Граничні точки довірчого інтервалу називаються відповідно нижньою і верхньою довірчим межами.  Заданому а = 1 - e відповідає неєдиним довірчий інтервал. Довірчі інтервали можуть змінюватися від вибірки до вибірки. Більше тог, для даної вибірки різні методи побудови довірчих інтервалів можуть призвести до різних інтервалах. Тому вироблені певні правила. Використовуючи їх і ефективні оцінки невідомих параметрів, отримують найкоротші інтервали для заданої довірчої ймовірності а = 1 - e.  Розглянемо загальні принципи побудови довірчих інтервалів. Припустимо, що довірчий інтервал знаходимо для деякого параметра а сукупності і як точкової оцінки цього параметра візьмемо вибіркову незміщене М (г) = а і ефективну оцінку г = г (Х 1; Х 2; ... Х n), що має середнє квадратичне відхилення s р.  Якби закон розподілу оцінки р був відомий, то для знаходження довірчого інтервалу потрібно було б знайти таке значення d, для якого   . Але закон розподілу оцінки р залежить від закону розподілу випадкової величини Х і, отже, від його невідомого параметра а. Для того щоб не застосовувати закон розподілу випадкової величини Х, надходять у такий спосіб.  Так як ми вважаємо значення вибірки х 1, х 2, х 3, ..., х n, що мають ті ж закони розподілу, що і досліджувана випадкова величина Х, то, згідно з центральної граничної теореми (теоретичне вибіркове розподіл середніх   при великому n може побут добре апроксимовані відповідним нормальним розподілом параметрами М (   ) = М (   ) І   , Більшість числових характеристик вибірки мають нормальне або близьке значення до нормального вибіркове розподіл.  Тому за допомогою ймовірностей, які знаходимо з таблиць нормального розподілу   , Де   , Для заданого d можна знайти таке інтервал] г - d; г + d [, в якому лежить значення г, обчислена за даній вибірці можна вирішити і зворотну задачу: за даними ймовірності знайти значення d   , Таке що   .  Нерівності а - d ≤ р ≤ а + d еквівалентні нерівностям г - d ≤ а ≤ г + d (віднімемо г - d з кожної частини і помножимо на -1). Тим самим вказані методи побудови довірчих інтервалів] г - d; г + d [для параметра а.  Таким чином, при побудові довірчих інтервалів складається випадкова величина Y (наприклад,   , Пов'язана з невідомим параметром а, його оцінкою і має відому щільність розподілу ймовірностей p (y). Використовуючи цю щільність, визначимо довірчий інтервал за формулою   .  Як довірливо ймовірності (інакше - рівня довіри) зазвичай вважають  а = 0,95 (0,99). Це означає, що при вилученні n вибірок з однієї і тієї ж генеральної сукупності довірчий інтервал приблизно в 95% (99%) випадків буде накривати невідомий параметр (щодо невідомого параметра ймовірні події не допускаються). При збільшенні ж довірчої ймовірності будується ширший довірчий інтервал, який малопридатний для практики. Ще раз підкреслимо, що чим менше довжина довірчого інтервалу, тим точніше оцінка.  Відзначимо, що для точного знаходження довірчих інтервалів необхідно знати закон розподілу випадкової величини Х, тоді як для застосування наближених методів це не обов'язково.  Основні положення

Для повного уявлення про точність вимірювань та надійність оцінки випадкових відхилень результатів вимірювань, особливо при обмеженій кількості значень вимірюваної величини, необхідно задатися довірчими межами, довірчим інтервалом та довірчою ймовірністю. Нехай   - n незалежних спостережень над випадковою величиною з законом розподілу F(z/a), що залежить від параметра a, значення якого невідомо. Довірчі межі випадкових похибок — це верхня та нижня межі інтервалу, в які похибки потрапляють із заданою ймовірністю Р. Величина Р називається довірчою ймовірністю. Для визначення довірчих меж похибок необхідно знати густину розподілу похибок та ймовірність потрапляння похибок у довірчі межі. Якщо не ввести обмеження, то задача матиме множину розв'язків.

  1. Визначення 1. Функція спостережень a1(x1,...,xn) (помітимо, що це випадкова величина) називається нижньою довірчою границею для параметра a з рівнем довіри РД (звичайно близьким до 1), якщо при будь-якому значенні виконується P

.

  1. Визначення 2. Функція спостережень a2(x1,...,xn) (випадкова величина) називається верхньою довірчою границею для параметра з рівнем довіри РД , якщо при будь-якім значенні

.

  1. Визначення 3. Інтервал з випадковими кінцями (випадковий інтервал)

I(x) = ( a1(x), a2(x) ) , обумовлений двома функціями спостережень, називається довірчим інтервалом для параметра a з рівнем довіри РД , якщо при будь-якім значенні a  , тобто імовірність ( що залежить від a) накрити випадковим інтервалом I(x) справжнє значення a - більше або дорівнює РД.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]