Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
malyuzhenko_m_v_statistika_oporni_lekci.doc
Скачиваний:
7
Добавлен:
08.05.2019
Размер:
696.32 Кб
Скачать

6. Визначення необхідної чисельності вибірки.

Перед тим, як робити вибіркове спостереження, треба визначити необхідну чисельність вибірки, тобто мінімально достатній обсяг вибірки, при якому вибіркові оцінки репрезентували б основні властивості генеральної сукупності.

Збільшення цього обсягу приводить до зайвих втрат, а зменшення не забезпечить потрібної точності оцінок.

Вирішення цього питання грунтується на функціональному зв’язку двох дисперсій: ознаки у генеральній сукупності і середніх вибіркових значень.

μ ² = σ²ο / m

Ця залежність дозволяє встановити той обсяг вибірки, який би забезпечив потрібну точність – граничну похибку, що не перевищить допустиму.

Гранична помилка вибірки залежить від обсягу вибіркової сукупності. Тому задаючи межі граничної похибки визначаються обсягом вибірки, який залежить від Δ², t² і σο².

m = t² σ²ο/ Δ²

Таким чином обсяг вибірки залежить від:

  • ступеня однорідності сукупності (невідома);

  • точності оцінки (задається);

  • ймовірності, з якою гарантується результат (задається).

Коли досліджується невідома частка (розподіл сукупності за альтернативною ознакою) і немає ніяких відомостей про дисперсію ознаки у генеральній сукупності, а ціна помилки дуже велика, то щоб гарантувати результат використовують максимальне значення дисперсії (беруть найгірший випадок):

σο² = 0,25

m = 0,25t² / Δ²

Встановлено, що коли за результатами розрахунків обсяг вибірки перевищую 5% генеральної сукупності його можна зменшити шляхом коригування не втрачаючи при цьому репрезентативності вибірки. В цьому випадку скоригований обсяг вибірки:

m

m′ = -----

1+m/n

Задача

  1. Скільки респондентів треба обстежити перед виборами при опитуванні, щоб гарантувати похибку не більше 2% при ймовірності Р=0,99. Про апріорний розподіл електорату нічого не відомо.

  2. Чи достатньо обстежити 1000 родин в місті, щоб встановити середній дохід на родину з точністю +- 20 грн., якщо в місті мешкає 70000 родин. Результати виявились наступні:

До 200 грн

200-400

400-600

600-800

800-1000

1000-1200

1200 і більше

2%

20%

40%

20%

10%

5%

3%

7. Мала вибірка

Зрозуміло, що точність вибіркового спостереження зростає з ростом вибірки ( при цьому зменшується μ, а відповідно і Δ) і навпаки. Але це вірно тільки до певної межи. Встановлено, що коли вибірка зменшується до 30 одиниць і нижче (таку вибірку звуть малою), то закон розподілу вибіркових середніх вже не є нормальним.

Англійський статистик Стьюдент (Госсет) довів, що розподіл вибіркових середніх, коли обсяг вибірки не перевищує 30 одиниць має свій окремий закон розподілу - розподіл Стьюдента. Така вибірка зветься малою.

Мала вибірка не так добре віддзеркалює властивості генеральної сукупності (не є репрезентативною).

Дисперсія середніх вибіркових значень для розподілу Стьюдента і дисперсія ознаки у генеральній сукупності пов’язані наступним чином:

μ² мв = σο² ⁄ m -1

Стьюдент дослідив, якими будуть вірогідності того, що генеральна середня величина буде відрізнятись від вибіркової середньої величини (для малої вибірки) на величину +- μ мв, +- 2μ мв, +- 3μ мв. І знайшов, що ці ймовірності будуть меншими за ймовірності нормального розподілу і на відміну від розподілу Гауса залежать від обсягу малої вибірки).

m t

5

6

7

8

9

10

15

20

1

0,356

0,644

0,656

0,666

0,670

2

0,884

0,898

0,908

0,914

0,919

0,924

0,936

0,940

3

0,960

0,970

0,976

0,980

0,983

0,984

0,992

0,992

Тому, коли тільки можна, то треба уникати малої вибірки.

Задача на середній зріст, час поїздки до УАЗТ,

(Лекція 9)

Закрийте двері перед всіма помилками

І істина вже ніколи не зможе зайти.

Р. Тагор.

  1. Поняття про статистичну перевірку гіпотез.

Статистичні гіпотези – це певні припущення щодо властивостей сукупності. В загальному випадку ці припущення формулюють у вигляді двох гіпотез:

  1. Нульова гіпотеза (Нο): сукупність відповідає певним умовам (нульовою вона зветься тому, що передбачає відсутність розбіжностей між певними умовами і властивостями сукупності).

  2. Альтернативна гіпотеза (Н1): сукупність не відповідає певним умовам.

З цих двох гіпотез вірною є лише одна. Прийнявши ту, чи іншу гіпотезу ми можемо вгадати реальну ситуацію, а можемо й помилитись.

ПРИКЛАД. РЛС військового літака, що виготовлені за традиційною технологією мають середню дальність виявлення стандартної цілі 91 км при σ = 1 км. Це означає, що із всієї сукупності штатних РЛС 99,7% з них виявляють стандартну ціль на відстані 88-94 км.

Певний виробник РЛС при застосуванні нової (більш дешевої) технології, яка теоретично не повинна була б погіршувати вказаний параметр виявив, що пробна партія нових РЛС показала середню дальність виявлення стандартної цілі 89 км. Треба визначити чи дійсно нова технологія зменшує вказану характеристику, чи просто на дослідження потрапили не найкращі зразки?

Тому мають місце дві гіпотези:

Нο: середня дальність виявлення цілі для нових РЛС така сама, як і у традиційних, просто на дослідження потрапили найгірші зразки . Прийнявши цю гіпотезу ми одночасно приймаємо рішення про перехід на нову технологію виготовлення РЛС.

Н1: нова технологія викликає зменшення дальності виявлення стандартної цілі і отримані результати вибірки не випадкові. Ця гіпотеза змушує відмовитись від переходу на нову технологію.

Описану проблему можна звести до наступного питання : прийняти чи відхилити гіпотезу Но? Прийнявши Но ми переходимо на нову технологію, відхиливши її – відмовляємось від неї. І перше і друге рішення можуть бути помилковими.

Розрізняють помилку першого роду: відхилили гіпотезу Нο, коли вона була вірною (відмовились від нової технології, яка на справді краща за попередню). Інакше кажучи перестрахувались.

І помилку другого роду: прийняли Нο в той час, коли вона була не вірною (порахували, що отримане значення 89 км має всі шанси з’явитись у любій вибірці із штатних РЛС).

Вірна гіпотеза

Прийнята гіпотеза

Но

Но

Н1

Н1

Ситуація, коли кожна з гіпотез може бути вірною з’являється тому, що отримана кількісна характеристика (89 км) може свідчити як на користь одної гіпотези, так і на користь іншої. І в умовах такої невизначеності все одно треба приймати рішення.

Подібні проблеми виникають часто і в стислому вигляді їх сформулював принц Гамлет: “Бути, чи не бути?” Одне з вирішень подібної дилеми підказав свого часу Чингісхан: “Краще зробити і жалкувати, ніж жалкувати, що не зробив.”

В статистиці, на відміну від Чингісхана, застосовують математичні критерії для прийняття, або відхилення тої, чи іншої гіпотези. Все, що ми маємо – це вибірковий параметр. Якби він дав значення 91 км і більше ми б однозначно перейшли на нову технологію, а от коли він не дотягує до 91 км у нас з’являються певні сумніви щодо переходу на нову технологію. І чим вибірковий параметр менший, тим наших сумнівів більше.

Для прийняття того, чи іншого рішення відштовхуються від наступного: закон розподілу кількісної статистичної характеристики (тої яку ми отримуємо при вибірковому спостереженні) повинен бути заздалегідь відомим. Нехай графічно картина виглядає наступним чином:

F (x)

88 89 90 91 92 93 94 Дальність

Для прийняття того, чи іншого рішення треба встановити однозначне правило (критерій) коли яку гіпотезу ми приймаємо. Все що ми маємо – це якесь вибіркове значення. Значить весь діапазон зони “невизначеності” треба розбити на дві зони “впливу”. Коли вибірковий параметр потрапляє у зону гіпотези Но – приймається Но. Коли в зону Н1, то і прийматись буде Н1. Якщо ми таким чином визначимось, то тоді однозначно по вибірковому значенню можна стверджувати якою з гіпотез це значення викликане. Зрозуміло що при наближенні до 91 км більше шансів має гіпотеза Но, а при віддаленні від нього в меншу сторону 88 км - Н1. І чим це віддалення більше тим більше шансів у Н1 .

Оскільки за словами Мєнделєєва: “наука починається там, де починаються виміри”, то треба якось зрозуміло визначитись з вищенаведеними формулюванням “більше шансів” з тим, щоб обраний нами поріг найбільш оптимально розбивав вказаний діапазон.

Стосовно оптимальності розглянемо дві ситуації:

  • в якості порогу обрали 89 км (“зона впливу” гіпотези Но - від 89 км і більше);

  • в якості порогу обрали 90 км (“зона впливу” гіпотези Но - від 90 км і більше).

Нехай вірною є гіпотеза Но.

Обравши поріг 89 км ми з ймовірністю 0,023 робимо помилку першого роду: 2,3% вибірок із штатних РЛС дають середню дальність виявлення цілі меншу за 89 км. В усіх цих випадках ми помиляємось, коли не перейдемо на нову технологію.

Обравши в якості порога 90 км ми помиляємось з ймовірністю 0,159. Оскільки майже 16% вибірок із штатних РЛС дадуть середню дальність виявлення меншу за 90 км.

Таким чином, коли вірною є гіпотеза Но ми можемо зробити лише помилку першого роду (помилково відхилити її). Збільшуючи поріг ми збільшуємо ймовірність помилки першого роду.

Нехай вірною є гіпотеза Н1.

Обравши в якості порогу 89 км ми завжди будемо приймати невірне рішення, коли вибіркове значення буде більшим за 89 км. Тобто у всіх випадках коли вибірка дасть 89-91 км ми будемо помилятись.

Обравши в якості порогу 90 км ми будемо менше помилятись – а саме тільки тоді, коли вибіркові значення потраплять в діапазон 90 – 91 км. Збільшуючи поріг ми, таким чином, одночасно зменшуємо ймовірність помилки другого роду.

Підсумовуючи вищенаведене можна стверджувати наступне: збільшуючи поріг ми збільшуємо ймовірність помилки першого роду і зменшуємо ймовірність помилки другого роду. Зменшуючи поріг ситуація змінюється на протилежну. За критерієм Чингісхана ми би завжди робили помилку першого роду і ніколи не зробили помилку другого роду.

Людина незмозі встановити де є правда.

Але вона добре розбирається де брехня.

Б. Паскаль.

Для того, щоб визначитись яку саме величину обрати в якості порогу виходять з того, що потрібно мінімізувати збитки від прийняття невірного рішення.

При помилці першого роду (помилково відмовились від дешевої технології) ми уникаємо погіршання характеристик РЛС, але одночасно конкуренти (якщо не відмовляться від даної технології) можуть поставити на ринок такі самі РЛС, тільки більш дешеві.

При помилці другого роду (помилково перейшли на нову технологію) ми погіршуємо певну характеристику РЛС. Постає питання наскільки таке погіршання є принциповим для ринку озброєнь?

Що для нас важливіше: зробити РЛС більш дешевою, чи не погіршити певні її характеристики? Іншими словами: яку помилку (першого чи другого роду) ми більше прагнемо уникнути?

Прийнявши до уваги ту шкоду, яку може заподіяти помилка першого роду визначають такий рівень її ймовірності, який вважають в певному розумінні безпечним. Наприклад, якщо нас взагалі не лякає помилка першого роду (завдання перейти на більш дешеві РЛС не є принциповим), то на ймовірність помилки першого роду не звертають увагу і поріг обирають виходячи з завдання зменшення лише помилки другого роду (для нашого прикладу це буде 91 км і в цьому випадку ми перейдемо на нову технологію лише тоді, коли вибірковий параметр буде більше 91 км).

Якщо помилкою першого роду нехтувати не можна (питання здешевлення стоїть гостро), то визначають її “безпечний” рівень, коли помилка буде майже неймовірною в конкретній ситуації. Тобто з тих чи інших міркувань визначаються, що у конкретній ситуації нас влаштовує, що ми можемо помилитись не більше як у 1 випадку зі 100, або в 1 випадку із 1000, або в 1 випадку з 1000000 … В кожній конкретній ситуації цей рівень визначається окремо і він носить назву рівня істотності критерію.

Таким чином, коли отримана вибірка потрапляє в ту зону, де ймовірність того, що таке значення викликане гіпотезою Но менша за рівень істотності, то ми відхиляємо гіпотезу Но. Ми скоріше допустимо, що наша гіпотеза невірна, ніж допустимо появи такої малоймовірної вибірки.

Визначивши рівень істотності можна розрахувати поріг (критичне значення), який дозволяє поділити область невизначеності на дві “зони впливу” для гіпотез Но і Н1 відповідно.

Статистична перевірка гіпотез відбувається у такий послідовності:

  1. Формулюють нульову, та альтернативну гіпотези.

  2. Вибирають статистичну характеристику, за значенням якої перевіряють правильність нульової гіпотези.

  3. Визначають рівень істотності ризику першого роду і відповідне йому критичне значення статистичної характеристики.

  4. За результатами вибірки визначають фактичне значення статистичної характеристики.

  5. Порівнюють критичне і статистичне значення.

  6. Приймають, або відхиляють нульову гіпотезу.

(Лекція 12)

Метафізика - це коли слухач нічого не розуміє,

І коли викладач розуміє не більше.

Вольтер.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]