Analisis Konten Portal Berita DetikCom Mengenai Headline Pemberitaan Acara MotoGP Mandalika pada Media Sosial X Menggunakan Konsep Vector Space Model (VSM) dengan Metode TF-IDF dan Cosine Similarity
Abstract
Abstract. MotoGP is back in Indonesia after 25 years. During the preparation until the end of the event, many incidents were highlighted by the community which were then used by DetikCom to upload tweets about news headlines. In processing news, it is not uncommon for a news headline to be uploaded repeatedly. Therefore, content analysis was carried out using the concept of Vector Space Model (VSM) with the TF-IDF method and Cosine Similarity to identify the diversity of uploaded news headlines. Data processing includes 4 stages of analysis, namely text preprocessing, VSM analysis, content analysis, and visualization. The result of this study is that news portals that upload MotoGP Mandalika news include DetikCom, DetikSport, DetikOto, DetikFinance, DetikTravel, and DetikHealth with a total of 261 tweets of news headlines from all portals. A total of 855 unique words with an average cosine similarity result of 0.0128 shows that the similarity of content in news headlines across the DetikCom is very low.
Abstrak. MotoGP kembali diadakan di Indonesia setelah 25 tahun lalu. Pergelaran acara tersebut mengundang antusiasme besar di masyarakat yang diungkapkan pada media sosial X. Selama persiapan sampai dengan selesainya acara, banyak kejadian yang disoroti masyarakat yang kemudian dimanfaatkan oleh DetikCom untuk mengunggah tweet mengenai cuplikan berita atau headline berita. Dalam memproses berita, tidak jarang suatu headline berita diunggah berulang kali. Maka dari itu, dilakukan analisis konten menggunakan konsep Vector Space Model (VSM) dengan metode TF-IDF dan Cosine Similarity untuk mengidentifikasi keberagaman headline berita yang diunggah. Pengolahan data mencakup 4 tahap analisis yaitu text preprocessing, analisis VSM, analisis konten, dan visualisasi. Hasil dari penelitian ini adalah portal yang mengunggah pemberitaan MotoGP Mandalika meliputi DetikCom, DetikSport, DetikOto, DetikFinance, DetikTravel, dan DetikHealth dengan total unggahan headline berita dari seluruh portal sebanyak 261 tweet. Total kata unik sebanyak 855 kata dengan hasil rata-rata cosine similarity bernilai 0.0128 menunjukkan bahwa kemiripan konten pada headline berita di seluruh portal DetikCom sangat rendah.
References
A. Hidayat, "Analisis Ekstraksi Fitur Pada Klasifikasi Teks Menggunakan Algoritma K-Nearest Neighbor (Studi Kasus: Berita Hoaks)," Program Studi Sistem Informasi. UIN Syarif Hidayatullah, 2022.
A. Permana and A. Wibowo, "Movie Recommendation System Based on Synopsis Using Content-Based Filtering With TF-IDF and Cosine similarity," Journal on ICT, vol. 9(2), pp. 1-14, 2023.
B. Yulianto, W. Budharto and I. H. Kartowisastro, "The Performance of Boolean Retrieval and Vector Space Model in Textual Information Retrieval," CommIT (Communication & Information Technology) Journal, vol. 11(1), pp. 33-39., 2017.
F. Amin, "Sistem Temu Kembali Informasi dengan Pemeringkatan Metode Vector Space Model," Jurnal Teknologi Informasi DINAMIK, vol. 18(2), pp. 122-129, 2013.
G. Y. Arafat, "Membongkar Isi Pesan dan Media dengan Content Analysis," Jurnal Alhadharah, vol. 17(33), 2018.
K. Nugraha and D. Sebastian, "Pembentukan Dataset Topik Kata Bahasa Indonesia pada Twitter Menggunakan TF-IDF & Cosine similarity," Jurnal Teknik Informatika dan Sistem Informasi, vol. 4(3), 2018.
K. Putra, M. Hariyadi and C. Crysdian, "Perbandingan Feature Extraction TF-IDF dan BoW Untuk Analisis Sentimen Berbasis SVM.," Jurnal Cahaya Mandalika., 2020.
M. Kompan and M. Bielikova, "Content-Based News Recommendation," in Lecture Notes in Business Information Processing (LNBIP), 2010.
M. Pannu, A. James and R. Bird, "A Comparison of Information Retrieval Models.," Proceedings of the Western Canadian Conference on Computing Education., 2014.
M. Umadevi, "Document Comparison Based on TF-IDF Metric.," International Research Journal of Engineering and Technology (IRJET), vol. 7, 2020.
R. M. Setyowati, Setyowati and H. Rahmah, "Munculnya Pawang Hujan di Sirkuit MotoGP Mandalika 2022 di Mata Netizen (Analisis Isi Pesan di Kolom Komentar YouTube MotoGP Trans7 Official)," Jurnal Ilmiah Ilmu Pendidikan (JIIP), vol. 5(9), pp. 3805-3813, 2022.
S. Khomsah and A. S. Aribowo, "Model Text-Preprocessing Komentar Youtube Dalam Bahasa Indonesia," Jurnal RESTI, vol. 1(3), p. 648–654, 2020.
Eva Fridiyani Putri, & Kismiantini. (2024). Analisis Faktor-Faktor yang Memengaruhi Status Diabetes Mellitus pada Pra Lansia dan Lansia di Indonesia Menggunakan Model Regresi Logistik Biner. Statistika, 24(1), 54–64. https://doi.org/10.29313/statistika.v24i1.3319
Salnuddin, Susanto, A. N., & Bemba, J. (2024). Perbandingan Penggunaan Model Regresi Linear dan Nonlinear dalam Mendeterminasi Daya Simpan Panas (DSP) Gerabah Pengembangan. Statistika, 24(1), 65–74. https://doi.org/10.29313/statistika.v24i1.3466
Ulfah Mediaty Arief, Sri Sukamta, Dewi Anggriani, & Moh. Umar Dani Atik. (2024). Prediksi Ketersediaan Tenaga Listrik di Jawa Tengah dengan Forecast Linear dan Error Trend Seasonality menggunakan Excel. Statistika, 24(1), 47–53. https://doi.org/10.29313/statistika.v24i1.3277