Анализ полных наблюдений

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Пример анализа полных наблюдений. В ходе построения регрессии на анализ полных наблюдений будет заключаться в удалении наблюдений у которых есть пропущенные значения (NA)

Анализ полных наблюдений (англ. listwise/casewise deletion, реже англ. complete-case analysis) — статистический метод обработки пропущенных данных, основанный на удалении всех наблюдений с неполными признаковыми описаниями. Считается самым простым способом разрешения проблемы пропущенных данных[1].

Оценка регрессий при анализе полных наблюдений[править | править код]

Представим линейную регрессионную модель вида , где — вектор целевых значений, — матрица значений независимых переменных, — вектор регрессионных коэффициентов, — вектор регрессионных остатков.

Пусть , если i-е наблюдение имеет полное признаковое описание и в противном случае — то есть . Тогда модель с использованием исключительно полных наблюдений будет формулироваться следующим образом: , где и — векторы новых регрессионных коэффициентов и остатков соответственно.

МНК-оценка вектора в таком случае выглядит следующим образом[2]: .

Ограничения метода[править | править код]

Анализ полных наблюдений позволяет получать несмещённые оценки при регрессионном анализе (с использованием МНК) при условии, что вероятность пропуска значения () зависит от независимых переменных (), а не регрессионных остатков ()[2]. Действительно, смещённость оценок может быть связана с тем, что пропуск данных не случаен (MNAR, англ. Missing not at random). Например, респонденты отказываются отвечать на какой-то сензитивный вопрос — в таком случае в выборке останутся только те респонденты, которые (по каким-то причинам) склонны отвечать на вопросы определённого типа[3]. Данное условие может не выполняться в двух случаях:

  • Невключение какой-то значимой переменной (omitted variable).
  • Неверная спецификация одной из независимых переменных (то есть включённая переменная некорректно отражает другую, «истинную»)[2].

Кроме того, вероятность пропуска может быть связана и с откликом ()[4]. Помимо этого условия несмещённости, определённого для «истинной» линейной регрессионной модели, большую роль играет корректность выбора функциональной формы зависимости между независимой и зависимой переменными. Эти допущения зачастую не работают в социальных науках: верная спецификация моделей и точная функциональная форма редко бывают доподлинно известны[5].

Использование методики анализа полных наблюдений приводит к уменьшению размера исследуемой выборки, что также создаёт проблемы. Это сокращает статистическую мощность критериев, которые могут применяться на данных[6][3]. Кроме того, метод может привести к получению неэффективных оценок, если удаление наблюдений значительно сократит объясняемую дисперсию[5].

Сравнение с другими методами[править | править код]

В случаях, когда изложенные недостатки и ограничения анализа полных наблюдений имеют место быть, рекомендуется прибегать к альтернативным, более сложным методам обработки пропущенных данных: попарное удаление пропущенных наблюдений (англ. pairwise deletion), введение дамми на пропуск, а также множественная импутация (англ. multiple imputation)[5]. Литтл и Рубин отмечали, что анализ полных наблюдений приводит к потере неоправданного объёма дисперсии, если статистический метод подразумевает исследование одной переменной (например, нахождение среднего значения), ведь в таком случае из выборки будут исключены даже те наблюдения, у которых значения в этой переменной не пропущены, и рекомендовали для таких случаев простую замену — анализ доступных значений[7].

Тем не менее, в ряде случаев анализ полных наблюдений может обладать преимуществами по сравнению с более сложными альтернативами[8].

Анализ полных наблюдений широко используется в анализе «intent-to-treatruen», широко распространённом в экономике образования, где средний эффект от вмешательства на полных наблюдениях сравнивается с эффектом, рассчитанным с включением наблюдений с неполными признаковыми описаниями[9].

В статистических пакетах[править | править код]

  • В SPSS использование методики анализа полных наблюдений при корреляционном, регрессионном и других типах статистического анализа осуществляется посредством включения подкоманды /MISSING=LISTWISE в синтаксис применяемой функции[10].
  • В Stataruen при построении регрессий, корреляционных и ковариационных матриц по умолчанию удаляются наблюдения с пропущенными значениями[11].
  • В R есть несколько способов применения анализа полных наблюдений: стандартные функции na.omit(), complete.cases() и параметр na.rm = TRUE, «механически» удаляющие наблюдения с пропущенными значениями переменных[12], а также функция ld() для матричных объектов из пакета (библиотеки) ForImp[13].

Примечания[править | править код]

  1. Samii, 2011, p. 518.
  2. 1 2 3 Jones, 1996, p. 223.
  3. 1 2 Olinsky et al., 2003.
  4. Тем не менее, показывается (Jones, 1996, p. 228), что для валидности метода достаточно независимости от переменных-регрессоров, а не полное соответствие допущению MСAR (англ. Missing completely at random).
  5. 1 2 3 Samii, 2011, pp. 518-519.
  6. Roth, 1994.
  7. Little, Rubin, 2002, pp. 43-44.
  8. Allison, 2001, pp. 6-7.
  9. Peugh, Enders, 2004.
  10. Pairwise vs. Listwise deletion: What are they and when should I use them? (англ.). IBM Support. Дата обращения: 24 августа 2017. Архивировано 24 августа 2017 года.
  11. Missing Values | Stata Learning Modules (англ.). UCLA Institute for Digital Research and Education. Дата обращения: 24 августа 2017. Архивировано 24 августа 2017 года.
  12. Missing Data (англ.). Quick-R. Дата обращения: 24 августа 2017. Архивировано 27 августа 2017 года.
  13. R: Listwise Deletion (англ.). R Documentation. Дата обращения: 24 августа 2017. Архивировано из оригинала 24 декабря 2014 года.

Литература[править | править код]

Ссылки[править | править код]