Penanganan Data Hilang Menggunakan Metode MarkoviChain Monte Carlo (MCMC)

  • Sintia Arjabi Oktavianti Statistika
  • Teti Sofia Yanti Statistika
Keywords: Data Hilang, Normal Multivariat, Metode MCMC, Algoritma DA, Data Lengkap.

Abstract

Abstract. In an observation or research, there are often cases where the data observed or researched is incomplete because the measuring instrument used is inaccurate, damaged, not recorded and other technical problems. Incomplete data is commonly referred to as missing data. Missing data is an important problem in various studies because it can lead to bias and inaccuracy in predicting the response from observations. The method used to estimate missing data in the writing of this thesis is the Multiple Imputation method. Multiple Imputation used is the Markov Chain Monte Carlo (MCMC) method with Data Augmentation (DA) algorithm. The MCMC method is an algorithm for simulating conditional probability, which is suitable for any data pattern, where it is assumed that the underlying complete data follows a multivariate normal distribution. One case of incomplete data is the time-travel (Home – GSK) in Canada, the Province of Ontario in 2011 – 2012, for the variables Distance, Maxspeed and FuelEconomy. Based on the DA algorithm, complete data is formed for the three variables, so that these variables can be used for further analysis.

Abstrak. Dalam sebuah pengamatan atau penelitian sering sekali terjadi kasus dimana data yang diamati atau diteliti tidak lengkap dikarenakan alat ukur yang digunakan kurang akurat, rusak, tidak tercatat dan masalah-masalah teknis lainnya. Data yang tidak lengkap biasa disebut sebagai data hilang (missing data). Data hilang merupakan suatu masalah penting dalam berbagai penelitian karena dapat menyebabkan terjadinya bias dan ketidakakuratan dalam memprediksi respon dari amatan. Metode yang digunakan untuk melakukan pendugaan data hilang pada penulisan artikel ini adalah metode Imputasi Ganda (Multiple Imputation). Imputasi Ganda (Multiple Imputation) yang digunakan adalah metode Markov Chain Monte Carlo (MCMC) dengan algoritma Data Augmentation (DA). Metode MCMC adalah algoritma untuk mensimulasikan peluang bersyarat, yang cocok untuk pola data apapun, di mana diasumsikan bahwa data lengkap yang mendasari mengikuti distribusi normal multivariat. Salah satu kasus data tidak lengkap yaitu time-travel (Home – GSK) yang ada di Negara Canada Provinsi Ontario pada tahun 2011 – 2012, untuk variabel Distance, Maxspeed dan FuelEconomy. Berdasarkan algoritma DA terbentuk data lengkap untuk ketiga variabel tersebut, sehingga variabel tersebut dapat digunakan untuk analisis lebih lanjut.

Published
2022-07-29