Pengaruh Keseimbangan Data terhadap Akurasi Model Support Vector Machine pada Data Set Donor Darah

Penulis

  • Agung Widyanto Universitas Amikom Yogyakarta
  • Kusrini Universitas Amikom Yogyakarta
  • Kusnawi Universitas Amikom Yogyakarta

DOI:

https://doi.org/10.54914/jtt.v9i2.771

Kata Kunci:

Data imbalance, Min-Max scaling, SMOTE, SVM, WEKA

Abstrak

Pada klasifikasi, data yang tidak seimbang menjadi hal yang umum ditemukan. Data yang tidak seimbang memiliki rasio ketimpangan kelas mayoritas dan minoritas. Model yang dilatih dengan data yang tidak seimbang mengakibatkan model cenderung memprediksi kelas minoritas sebagai kelas mayoritas. Penelitian ini memiliki tujuan untuk mengetahui pengaruh keseimbangan data terhadap akurasi model klasifikasi Support Vector Machine (SVM). Data set yang digunakan adalah data set donor darah yang diunduh dari repositori milik University of California,Irvine (UCI). Alat Waikato Environment for Knowledge Analysis (WEKA) dipilih untuk menyajikan hasil pengembangan pelatihan dan pengujian model. Skema kerangka kerja penelitian digunakan sebagai acuan Knowledge Flow. Pada skenario-1, pra-pemrosesan data mencakup penanganan missing value menggunakan mean-impulse dan normalisasi MinMax Scaling. Dengan data set yang memiliki rasio ketimpangan 1:3, pengklasifikasi SVM mendapatkan performa akurasi sebesar 76.7%. Sedangkan pada skenario-2, pasca pra-pemrosesan dilakukan penyeimbangan data menerapkan Synthetic Minority Oversampling Technique (SMOTE). Pengklasifikasi SVM mendapatkan performansi akurasi 69.8%. Kinerja model dievaluasi menggunakan confusion metric. Gap nilai recall tiap kelas sangat tinggi pada skenario-1 (2.8% dan 99.8%). Hal yang berbeda pada skenario-2  (75.6% dan 64%). Hasil uji 748 sampel, didapatkan akurasi 76.7% model skenario-1, dan akurasi 93.2% model skenario-2. Hal ini membuktikan bahwa keseimbangan data memiliki pengaruh terhadap akurasi model klasifikasi SVM.

Unduhan

Data unduhan belum tersedia.

Biografi Penulis

Kusrini, Universitas Amikom Yogyakarta

 

 

Kusnawi, Universitas Amikom Yogyakarta

 

 

Referensi

I. C. Yeh, K. J. Yang, and T. M. Ting, “Knowledge discovery on RFM model using Bernoulli sequence,†Expert Syst Appl, vol. 36, no. 3, pp. 5866–5871, Apr. 2009, doi: 10.1016/J.ESWA.2008.07.018.

C. Kurniawan Putra Rukma, “Increase Accuracy of Naïve Bayes Classifier Algorithm with K-Means Clustering for Prediction of Potential Blood Donors,†Journal of Advances in Information Systems and Technology, vol. 4, no. 1, 2022, [Online]. Available: https://journal.unnes.ac.id/sju/index.php/jaist

K. Akbar and M. Hayaty, “Data Balancing untuk Mengatasi Imbalance Data set pada Prediksi Produksi Padi Balancing Data to Overcome Imbalance Data set on Rice Production Prediction,†Jurnal Ilmiah Intech : Information Technology Journal of UMUS, vol. 2, no. 02, pp. 1–14, 2020.

K. Imoto, S. Mishima, Y. Arai, and R. Kondo, “Impact of data imbalance caused by inactive frames and difference in sound duration on sound event detection performance,†Applied Acoustics, vol. 196, p. 108882, Jul. 2022, doi: 10.1016/J.APACOUST.2022.108882.

S. Mutmainah, “PENANGANAN IMBALANCE DATA PADA KLASIFIKASI KEMUNGKINAN PENYAKIT STROKE,†2021. [Online]. Available: https://library.uii.ac.id/osr

F. Yulian Pamuji, “Pengujian Metode SMOTE Untuk Penanganan Data Tidak Seimbang Pada Data set Binary,†Seminar Nasional Sistem Informasi, vol. 2022, 2022.

R. Kembang Hapsari and T. Surabaya, “SNESTIK Seminar Nasional Teknik Elektro, Sistem Informasi, dan Teknik Informatika Implementasi Algoritma SMOTE Sebagai Penyelesaian Imbalance Hight Dimensional Data sets,†p. 427, doi: 10.31284/p.snestik.2022.2868.

E. Sutoyo, M. Asri Fadlurrahman, J. Telekomunikasi Jl Terusan Buah Batu, K. Dayeuhkolot, K. Bandung, and J. Barat, “JEPIN (Jurnal Edukasi dan Penelitian Informatika) Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Television Advertisement Performance Rating Menggunakan Artificial Neural Networkâ€.

R. Siringoringo, “KLASIFIKASI DATA TIDAK SEIMBANG MENGGUNAKAN ALGORITMA SMOTE DAN k-NEAREST NEIGHBOR,†2018.

E. Erlin, Y. Desnelita, N. Nasution, L. Suryati, and F. Zoromi, “Dampak SMOTE terhadap Kinerja Random Forest Classifier berdasarkan Data Tidak seimbang,†MATRIK : Jurnal Manajemen, Teknik Informatika dan Rekayasa Komputer, vol. 21, no. 3, pp. 677–690, Jul. 2022, doi: 10.30812/matrik.v21i3.1726.

A. S. Alkahtani and M. Jilani, “Predicting return donor and analyzing blood donation time series using data mining techniques,†International Journal of Advanced Computer Science and Applications, vol. 10, no. 8, 2019.

T. Emmanuel, T. Maupong, D. Mpoeleng, T. Semong, B. Mphago, and O. Tabona, “A survey on missing data in machine learning,†J Big Data, vol. 8, no. 1, Dec. 2021, doi: 10.1186/s40537-021-00516-9.

Y. A. Sir and A. H. H. Soepranoto, “Pendekatan Resampling Data Untuk Menangani Masalah Ketidakseimbangan Kelas,†Jurnal Komputer dan Informatika, vol. 10, no. 1, pp. 31–38, Mar. 2022, doi: 10.35508/jicon.v10i1.6554.

A. Arafa, N. El-Fishawy, M. Badawy, and M. Radad, “RN-SMOTE: Reduced Noise SMOTE based on DBSCAN for enhancing imbalanced data classification,†Journal of King Saud University - Computer and Information Sciences, vol. 34, no. 8, pp. 5059–5074, Sep. 2022, doi: 10.1016/j.jksuci.2022.06.005.

N. Sekar Ramadhanti and W. Ananta Kusuma, “OPTIMASI DATA TIDAK SEIMBANG PADA INTERAKSI DRUG TARGET DENGAN SAMPLING DAN ENSEMBLE SUPPORT VECTOR MACHINE,†vol. 7, no. 6, 2020, doi: 10.25126/jtiik.202072857.

J. Platt, “Sequential minimal optimization: A fast algorithm for training support vector machines,†1998.

N. V Chawla, K. W. Bowyer, L. O. Hall, and W. S. Philip Kegelmeyer, “synthetic minority over-sampling Technique,†J Artif Intell Res, p. 16, 2018.

Unduhan

Diterbitkan

2023-12-12

Cara Mengutip

[1]
A. Widyanto, Kusrini, dan Kusnawi, “Pengaruh Keseimbangan Data terhadap Akurasi Model Support Vector Machine pada Data Set Donor Darah”, j. teknologi terpadu, vol. 9, no. 2, hlm. 79–88, Des 2023.

Terbitan

Bagian

Artikel