|

Обзор методов и программного обеспечения для восстановления пропущенных значений в массивах социологических данных

Авторы: Фомина Е.Е. Опубликовано: 12.08.2019
Опубликовано в выпуске: #4(78)/2019  
DOI: 10.18698/2306-8477-2019-4-611  
Раздел: Гуманитарные науки в техническом университете | Рубрика: Социологические науки  
Ключевые слова: импутация данных, восстановление пропущенных значений, некомплектные наблюдения

Анализ социологических данных сопряжен с исследованием больших массивов переменных, которые могут содержать пропущенные значения. Наличие значительного числа некомплектных записей приводит к искажению результатов статистического анализа, неверной интерпретации результатов моделирования. В статье представлен обзор методов и программного обеспечения, предназначенных для импутации отсутствующих значений при проведении социологических исследований. Рассмотрены математическая сущность, преимущества и недостатки наиболее распространенных методов восстановления пропусков, используемых при решении практических задач. Приведен обзор современного программного обеспечения, используемого для решения подобных задач. Предложена методика выбора наиболее эффективного алгоритма импутации.


Литература
[1] Литтл Р.Дж.А., Рубин Д.Б. Статистический анализ данных с пропусками. Москва, Финансы и статистика, 1990, 336 с.
[2] Злоба Е., Яцкие И. Статистические методы восстановления пропу¬щенных данных. Computer Modelling & New Technologies, 2002, vol. 6, no. 1, pр. 51–61.
[3] Зангиева И.К. Проблема пропусков в социологических данных: смысл и подходы к решению. Социология: методология, методы, математическое моделирование, 2011, № 33, с. 28–56.
[4] Фабрикан М.С. Практики сбора и анализа формализованных данных. Социология: методология, методы, математическое моделирование, 2015, № 41, с. 7–29.
[5] Абраменкова И.В., Круглов В.В. Методы восстановления пропусков в массивах данных. Программные продукты и системы, 2005, № 2, с. 4.
[6] Silva-Ramírez E.-L., et al. Missing value imputation on missing completely at random data using multilayer perceptrons. Neural Networks, 2011, vol. 24, iss. 1, pр. 121–129.
[7] Орлова И.В., ред. Многомерный статистический анализ в экономических задачах: компьютерное моделирование в SPSS. Москва, Вузовский учебник, 2009, 309 с.
[8] Пимонов А.Г., Глебова Е.А., Сарапулова Т.В., Глебов В.В. Методы, алгоритмы и программные средства для восстановления пропущенных данных в массивах экономической статистики. Экономика и управление инновациями, 2017, № 3, c. 52–66.
[9] Загоруйко Н.Г., Елкина В.Н., Тимеркаев В.С. Алгоритм заполнения пропусков в эмпирических таблицах (алгоритм ZET). Эмпирическое предсказание и распознавание образов, 1975, вып. 61: Вычислительные системы, с. 3–27.
[10] Снитюк В.Е. Эволюционный метод восстановления пропусков в данных. Сборник трудов VI Международной конференции «Интеллектуальный анализ информации». Киев, НТУУ «КПИ», 16–19 мая 2006 г. Киев, 2006, с. 262–271.
[11] Silva-Ramírez E.-L., Pino-Mejías R., Lopez-Coello M. Single imputation with multilayer perceptron and multiple imputation combining multilayer perceptron and k-nearest neighbours for monotone patterns. Applied Soft Computing, 2015, no. 29, рp. 128–132.
[12] Yoon S., Lee S. Training algorithm with incomplete data for feed-forward neural networks. Neural Processing Letters, 1999, no. 10 (3), рр. 171–179.
[13] Бююль А., Цефель П. SPSS: Искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. Санкт-Петербург, ДиаСофтЮП, 2005, 608 с.
[14] Таганов Д.Н. Статистический анализ в маркетинговых исследованиях. Санкт-Петербург, Питер, 2005, 192 с.
[15] Наследов А.Д. SPSS — Компьютерный анализ данных в психологии и социальных науках. Санкт-Петербург, Питер, 2005, 416 c.
[16] Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS. Москва, Изд. дом ГУ ВШЭ, 2006, 281 с.
[17] Организация массовых данных и алгоритмы выявления выбросов. URL: https://studme.org/120986/matematika_himiya_fizik/organizatsiya_massovyh_dannyh_algoritmy_vyyavleniya_vybrosov#aftercont (дата обращения 06.05.2019).