Evaluasi Agglomerative Hierarchical Clustering pada Potensi Provinsi di Bidang Hiburan Dan Olahraga Menggunakan Korelasi Cophenetic

  • Syilvia Syifa Rahayu Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Islam Bandung
  • Ilham Faishal Mahdy Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Islam Bandung
Keywords: Agglomerative Hierarchical Clustering, Jarak Mahalanobis, Koefisien Korelasi Cophenetic, Potensi Provinsi.

Abstract

Abstract. The potential of provinces in Indonesia is highly diverse, reflecting the richness of resources and cultural diversity that can be leveraged to enhance development and societal welfare. Assessing provincial potential involves identifying strengths and opportunities to optimize resource utilization, encompassing economic, social, environmental, and infrastructural aspects. One significant potential lies in entertainment and sports facilities, which play a role in maintaining physical and mental health, strengthening social life, and delivering positive economic impacts through job creation and increased local economic activity. To determine the extent to which provincial potential has developed, the Agglomerative Hierarchical Clustering (AHC) method is employed. This method groups provinces based on characteristic similarities using the Mahalanobis distance matrix, forming a single large cluster, which is then evaluated for validity using the cophenetic correlation coefficient This study utilizes secondary data from publications on the BPS website, covering information on the number of entertainment and sports facilities in each urban village/rural area across Indonesian provinces. Based on the clustering results, the study applied the Single Linkage, Complete Linkage, Average Linkage, Ward Method, and Centroid Method to classify provinces into two clusters: high and low potential. The validity results, measured using cophenetic correlation, show that the Average Linkage method achieves the highest correlation, making it the most optimal method. Conversely, the Ward Method exhibits the lowest correlation, indicating that its application requires further consideration.

Abstrak. Potensi provinsi di Indonesia sangat beragam, mencerminkan kekayaan sumber daya dan keanekaragaman budaya yang dapat dimanfaatkan untuk meningkatkan pembangunan dan kesejahteraan masyarakat. Penilaian potensi provinsi melibatkan identifikasi kekuatan dan peluang untuk mengoptimalkan penggunaan sumber daya, mencakup aspek ekonomi, sosial, lingkungan, dan infrastruktur. Salah satu potensi penting adalah fasilitas hiburan dan olahraga, yang berperan dalam menjaga kesehatan fisik dan mental, memperkuat kehidupan sosial, dan memberikan dampak ekonomi positif melalui penciptaan lapangan kerja dan peningkatan aktivitas ekonomi lokal. Untuk mengetahui sejauh mana potensi provinsi ini telah berkembang, digunakan metode Agglomerative Hierarchical Clustering (AHC) yang mengelompokkan berdasarkan kesamaan karakteristik menggunakan matrik jarak Mahalanobis, hingga membentuk satu cluster besar dan dievaluasi validitas menggunakan koefisien korelasi cophenetic. Penelitian ini menggunakan data sekunder dari publikasi di situs BPS, yang mencakup informasi tentang jumlah fasilitas hiburan dan olahraga perkelurahan/desa di setiap provinsi Indonesia. Berdasarkan hasil penggabungan cluster penelitian ini menggunakan metode Single Linkage, Complete Linkage, Average Linkage, Ward Method, dan Centroid Method menghasilkan dua cluster berdasarkan potensi provinsi tinggi dan rendah. Didapat hasil validitas dengan korelasi cophenetic menunjukkan bahwa Average Linkage memiliki korelasi tertinggi, menjadikannya metode yang paling optimal. Sebaliknya, Ward Method menunjukkan korelasi terendah, sehingga penggunaannya perlu dipertimbangkan lebih lanjut.

References

[1] Badan Pusat Statistik Indonesia. (2021). Statistik Potensi Desa Indonesia 2021. Bps.go.id; Badan Pusat Statistik Indonesia. https://www.bps.go.id/id/publication/2022/03/ 24/ceab4ec9f942b1a4fdf4cd08/statistik-potensi-desa-indonesia-2021.html.
[2] Dewi, A. F., & Ahadiyah, K. (2022). Agglomerative Hierarchy Clustering Pada Penentuan Kelompok Kabupaten/Kota di Jawa Timur Berdasarkan Indikator Pendidikan. Zeta-Math Journal, 7(2), 57-63.
[3] Fadliana, A. (2015). Penerapan metode Agglomerative Hierarchical Clustering untuk klasifikasi Kabupaten/Kota di Provinsi Jawa Timur berdasarkan kualitas pelayanan keluarga berencana (Doctoral dissertation, Universitas Islam Negeri Maulana Malik Ibrahim).
[4] Hair, J. F., Black , W. C., Babin , B. J., & Anderson, R. E. (2010). Multivariate Data Analysis. Seventh Ed. New Jersey: Prentice Hall International, Inc.
[5] Mardhiyah, F. A., & Herlina, M. (2024). Pengelompokan Data Jenis Kejahatan di Indonesia Menggunakan Metode Agglomerative Hierarchical Clustering (AHC) pada Tahun 2021. In Bandung Conference Series: Statistics (Vol. 4, No. 1, pp. 1-7).
[6] Prayoga, S. W., & Pramana, S. (2024). Pemetaan Kejadian Balita Stunting Melalui Integrasi Citra Satelit Multisumber dan Official Statistics di Provinsi Nusa Tenggara Timur Menggunakan Machine Learning. In PROSIDING SEMINAR NASIONAL SAINS DATA (Vol. 4, No. 1, pp. 434-444).
[7] Ryan, T. P. (1997). Modern Regression Methods. New York: John Wiley and Sons.
[8] Sabara, I. M. (2022). Analisis agglomerative hierarchical clustering berdasarkan pengurutan parsial graf hasse terhadap indikator kemiskinan di Jawa Timur (Doctoral dissertation, Universitas Islam Negeri Maulana Malik Ibrahim).
[9] Sari, D. P., & Kusdarwati, H. (2015). Analisis Cluster Menggunakan Algoritma K-Means Untuk Mengelompokan Siswa Kelas Iv Sekolah Dasar Brawijaya Smart School Malang. Malang: Jurnal Mahasiswa Statistik, 86-89.
[10] Seber, G.A.F. (1983). Multivariate Observations. John Wiley and Sons, Inc. New York.
[11] Silva, A. R. D, & Dias, C. T. (2013). A cophenetic correlation coefficient for Tocher's method. Pesquisa Agropecuaria Brasileira, 48(6), 590-596.
[12] Surat Al-Anfal Ayat 72: Arab, Latin, Terjemah dan Tafsir Lengkap | Quran NU Online. (2023). Retrieved July 30, 2024, from Nu.or.id website: https://quran.nu.or.id/al anfal/72.
[13] Syauqi, R. M., Sabrina, P. N., & Santikarama, I. (2023). K-Means Clustering with KNN and Mean Imputation on CPU Benchmark Compilation Data. Journal of Applied Informatics and Computing, 7(2), 231-239.
Published
2025-02-03