- •Національна академія статистики, обліку та аудиту
- •Тематичний план дисципліни
- •Зміст курсу та методичні вказівки
- •Тема 1 Суть та основні поняття вибіркового спостереження
- •1 Суть, мета та завдання вибіркового спостереження
- •2 Переваги та недоліки вибіркового спостереження
- •3 Основні поняття вибіркового методу
- •Тема 2 Етапи проведення вибіркового спостереження
- •1 Етапи вибіркового обстеження
- •2 Планування вибіркового обстеження
- •3 Збір та обробка даних
- •4 Розповсюдження результатів та оцінка якості
- •Тема 3 Впровадження вибіркового обстеження в практику державної статистики
- •1 Передумови проведення вибіркового обстеження
- •2 Проведення робіт з впровадження вибіркового обстеження
- •3 Аналіз основи вибірки
- •Аналіз основи вибірки без проведення вибіркового обстеження
- •Аналіз основи вибірки за допомогою формування “штучних” вибірок
- •Тема 4 Види вибірок та відборів
- •1 Види вибірок
- •2 Види відборів
- •Тема 5 Побудова дизайну вибірки
- •1 Вивчення основних характеристик сукупності
- •2 Стратифікація генеральної сукупності
- •3 Дизайн вибірки
- •Тема 6 Обчислення обсягу вибірки
- •1 Проблеми, що виникають при визначенні обсягу вибірки
- •2 Вимоги до мінімального обсягу вибірки
- •3 Формули обчислення обсягу вибірки Формули обчислення обсягу вибірки через абсолютні величини
- •Тема 7 Виявлення та врахування нетипових одиниць
- •1 Види екстремальних елементів
- •Екстремальні елементи у вибірковому обстеженні
- •2 Методи виявлення екстремальних елементів
- •3 Особливості нетипових одиниць у обстеженні підприємств
- •Тема 8 Імпутація часткових невідповідей
- •1 Проблеми, пов’язані з пропусками у даних
- •2 Методи зменшення рівня невідповідей
- •3 Види часткових невідповідей
- •4 Методи оброблення часткових невідповідей
- •Класифікація методів обробки даних з невідповідями
- •Тема 9 Компенсація повних невідповідей
- •1 Методи компенсації повних невідповідей
- •2 Зважування даних
- •3 Обчислення ваг та вагових коефіцієнтів
- •Тема 10 Розповсюдження результатів вибіркової сукупності
- •1 Етапи обробки та аналізу результатів вибіркового обстеження
- •2 Обчислення оцінок показників генеральної сукупності за вибіркою
- •Тема 11 Обчислення похибок репрезентативності
- •1 Види похибок у вибірковому спостереженні
- •2 Обчислення похибок репрезентативності
- •Класи точності вибіркових даних
- •Класи надійності вибіркових даних
- •Тема 12 Оцінка якості результатів вибіркового спостереження
- •1 Поняття якості
- •2 Критерії якості результатів вибіркового спостереження
- •3 Компроміс між якістю та витратами на обстеження
- •Приклади розв’язання типових задач
- •Вказівки до виконання контрольних робіт для студентів стаціонару
- •Зміст контрольних робіт
- •Вказівки до виконання контрольних робіт для студентів заочної форми навчання
- •Державний комітет статистики України
- •Варіант 2 Задача 1
- •Задача 2
- •Варіант 3 Задача 1
- •Задача 2
- •Варіант 4 Задача 1
- •Задача 2
- •Варіант 5 Задача 1
- •Задача 2
- •Варіант 6 Задача 1
- •Задача 2
- •Варіант 7 Задача 1
- •Задача 2
- •Варіант 8 Задача 1
- •Задача 2
- •Варіант 9 Задача 1
- •Задача 2
- •Варіант 10 Задача 1
- •Задача 2
- •Запитання до іспиту
- •Список рекомендованої літератури
4 Методи оброблення часткових невідповідей
Для обробки часткових невідповідей застосовуються: методи прямого аналізу та методи умовного обчислення (імпутації).
Методи прямого аналізу неповних даних базуються на певних припущеннях щодо розподілу змінних. Ці методи передбачають ігнорування невідповідей.
Метод, при цьому ігноруються усі випадки відсутності величин і аналізуються лише випадки повної наявності даних, називається аналізом повного складу. Він має той недолік, що при видаленні усіх випадків, щодо яких відсутні одна чи більше ознак, обсяг вибірки може суттєво зменшитись.
Альтернативним є метод наявного складу, при якому використовується уся наявна інформація по одновимірним і багатовимірним статистичним даним. При застосуванні цього методу використовується більше інформації, ніж при аналізі повного складу. Недоліком такого методу обчислення є те, що для різних видів статистичних даних розмір вибірки різний.
Метод повного складу та метод наявного складу вимагають виконання умови, що відсутність величин носить повністю випадковий характер.
До методів прямого аналізу також відносяться методи моделювання, коли неповні дані аналізуються безпосередньо за допомогою певної моделі, в яку входять досліджувані параметри. Ці методи вимагають припущення щодо розподілу змінних. На практиці найчастіше використовують припущення, що дані мають багатовимірний нормальний розподіл. На основі такої моделі може бути визначена імовірнісна функція, яка потім максимізується за параметрами.
Найбільш широко вживаним методом моделювання є алгоритм визначення очікуваного середнього (ОМ-алгоритм). ОМ-алгоритм передбачає виконання процесу, який складається з двох етапів: очікування та максимізації. Процес проходить циклічно від одного етапу до другого, доки не буде досягнуто стабільності. На етапі максимізації параметри моделі оцінюються на основі прикладу, по якому є в наявності дані спостереження. На етапі очікування на основі моделі з отриманими на попередньому етапі параметрами розраховуються актуалізовані значення відсутніх величин. Повторення цих етапів достатню кількість разів завжди приводить до стабільних розв’язків як для параметрів моделі, так і для відсутніх величин.
Методи умовного обчислення (імпутації, заміщення, відновлення) полягають в заміщенні відсутнього значення певною величиною (замінником). У залежності від способу підбору замінника для пропуску методи умовного обчислення поділяються на детерміновані та стохастичні.
Детерміновані методи передбачають однозначну заміну відсутнього значення ознаки, а для стохастичних відсутнє значення заповнюється за ймовірнісними принципами.
Класифікація методів обробки даних з невідповідями
Інколи внутрішньої інформації виявляється недостатньо для заміщення пропусків у даних, тоді використовують зовнішні дані, що беруться із суміжних обстежень або з додаткових джерелах державної або відомчої статистики. Існуючі методи відновлення пропущених даних, що використовують допоміжну інформацію (із зовнішніх додаткових джерел) підвищують стійкість результатів спостереження відносно різних видів невідповідей.
При імпутації середнім потрібно стежити за тим, щоб відновлення даних за середнім не порушувало дисперсійної структури – не завищувало середні і дисперсію ознаки. Застосування методів відновлення, що мають стохастичну складову, дає можливість зберігати розподіл.
Корисно поєднувати декілька методів обробки невідповідей, тому що не існує універсального методу, що підходить для всіх ситуацій. Методи доцільно застосовувати на різних етапах проведення вибіркового спостереження та у визначеній послідовності. Рекомендується також обмежувати кількість методів обробки, щоб контролювати ефекти впливу на результати кожного з них.
При опрацюванні часткових невідповідей іноді буває важко відрізнити відсутність відповіді від нульової відповіді. Наприклад, у бланку в графі “Обсяг реалізованих послуг” проставлено риску. Залишається невідомим, чи означає це, що послуги підприємством не реалізовувались, чи підприємство з тієї або іншої причини на це питання не надало відповіді, або ж обсяг був настільки малим, що наближався до нуля. Щоб такого ускладнення не виникало, доцільно детальніше пояснювати правила заповнення бланку, а також використовувати спеціальні позначення для заповнення первинних звітів.