Pengaruh Keseimbangan Data terhadap Akurasi Model Support Vector Machine pada Data Set Donor Darah

Agung Widyanto; Kusrini; Kusnawi

doi:10.54914/jtt.v9i2.771

Penulis

Agung Widyanto Universitas Amikom Yogyakarta
Kusrini Universitas Amikom Yogyakarta
Kusnawi Universitas Amikom Yogyakarta

DOI:

https://doi.org/10.54914/jtt.v9i2.771

Kata Kunci:

Data imbalance, Min-Max scaling, SMOTE, SVM, WEKA

Abstrak

Pada klasifikasi, data yang tidak seimbang menjadi hal yang umum ditemukan. Data yang tidak seimbang memiliki rasio ketimpangan kelas mayoritas dan minoritas. Model yang dilatih dengan data yang tidak seimbang mengakibatkan model cenderung memprediksi kelas minoritas sebagai kelas mayoritas. Penelitian ini memiliki tujuan untuk mengetahui pengaruh keseimbangan data terhadap akurasi model klasifikasi Support Vector Machine (SVM). Data set yang digunakan adalah data set donor darah yang diunduh dari repositori milik University of California,Irvine (UCI). Alat Waikato Environment for Knowledge Analysis (WEKA) dipilih untuk menyajikan hasil pengembangan pelatihan dan pengujian model. Skema kerangka kerja penelitian digunakan sebagai acuan Knowledge Flow. Pada skenario-1, pra-pemrosesan data mencakup penanganan missing value menggunakan mean-impulse dan normalisasi MinMax Scaling. Dengan data set yang memiliki rasio ketimpangan 1:3, pengklasifikasi SVM mendapatkan performa akurasi sebesar 76.7%. Sedangkan pada skenario-2, pasca pra-pemrosesan dilakukan penyeimbangan data menerapkan Synthetic Minority Oversampling Technique (SMOTE). Pengklasifikasi SVM mendapatkan performansi akurasi 69.8%. Kinerja model dievaluasi menggunakan confusion metric. Gap nilai recall tiap kelas sangat tinggi pada skenario-1 (2.8% dan 99.8%). Hal yang berbeda pada skenario-2Â (75.6% dan 64%). Hasil uji 748 sampel, didapatkan akurasi 76.7% model skenario-1, dan akurasi 93.2% model skenario-2. Hal ini membuktikan bahwa keseimbangan data memiliki pengaruh terhadap akurasi model klasifikasi SVM.

Unduhan

Data unduhan belum tersedia.

Biografi Penulis

Kusrini, Universitas Amikom Yogyakarta

Kusnawi, Universitas Amikom Yogyakarta

Referensi

I. C. Yeh, K. J. Yang, and T. M. Ting, â€œKnowledge discovery on RFM model using Bernoulli sequence,â€ Expert Syst Appl, vol. 36, no. 3, pp. 5866â€“5871, Apr. 2009, doi: 10.1016/J.ESWA.2008.07.018.

C. Kurniawan Putra Rukma, â€œIncrease Accuracy of NaÃ¯ve Bayes Classifier Algorithm with K-Means Clustering for Prediction of Potential Blood Donors,â€ Journal of Advances in Information Systems and Technology, vol. 4, no. 1, 2022, [Online]. Available: https://journal.unnes.ac.id/sju/index.php/jaist

K. Akbar and M. Hayaty, â€œData Balancing untuk Mengatasi Imbalance Data set pada Prediksi Produksi Padi Balancing Data to Overcome Imbalance Data set on Rice Production Prediction,â€ Jurnal Ilmiah Intech : Information Technology Journal of UMUS, vol. 2, no. 02, pp. 1â€“14, 2020.

K. Imoto, S. Mishima, Y. Arai, and R. Kondo, â€œImpact of data imbalance caused by inactive frames and difference in sound duration on sound event detection performance,â€ Applied Acoustics, vol. 196, p. 108882, Jul. 2022, doi: 10.1016/J.APACOUST.2022.108882.

S. Mutmainah, â€œPENANGANAN IMBALANCE DATA PADA KLASIFIKASI KEMUNGKINAN PENYAKIT STROKE,â€ 2021. [Online]. Available: https://library.uii.ac.id/osr

F. Yulian Pamuji, â€œPengujian Metode SMOTE Untuk Penanganan Data Tidak Seimbang Pada Data set Binary,â€ Seminar Nasional Sistem Informasi, vol. 2022, 2022.

R. Kembang Hapsari and T. Surabaya, â€œSNESTIK Seminar Nasional Teknik Elektro, Sistem Informasi, dan Teknik Informatika Implementasi Algoritma SMOTE Sebagai Penyelesaian Imbalance Hight Dimensional Data sets,â€ p. 427, doi: 10.31284/p.snestik.2022.2868.

E. Sutoyo, M. Asri Fadlurrahman, J. Telekomunikasi Jl Terusan Buah Batu, K. Dayeuhkolot, K. Bandung, and J. Barat, â€œJEPIN (Jurnal Edukasi dan Penelitian Informatika) Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Television Advertisement Performance Rating Menggunakan Artificial Neural Networkâ€.

R. Siringoringo, â€œKLASIFIKASI DATA TIDAK SEIMBANG MENGGUNAKAN ALGORITMA SMOTE DAN k-NEAREST NEIGHBOR,â€ 2018.

E. Erlin, Y. Desnelita, N. Nasution, L. Suryati, and F. Zoromi, â€œDampak SMOTE terhadap Kinerja Random Forest Classifier berdasarkan Data Tidak seimbang,â€ MATRIK : Jurnal Manajemen, Teknik Informatika dan Rekayasa Komputer, vol. 21, no. 3, pp. 677â€“690, Jul. 2022, doi: 10.30812/matrik.v21i3.1726.

A. S. Alkahtani and M. Jilani, â€œPredicting return donor and analyzing blood donation time series using data mining techniques,â€ International Journal of Advanced Computer Science and Applications, vol. 10, no. 8, 2019.

T. Emmanuel, T. Maupong, D. Mpoeleng, T. Semong, B. Mphago, and O. Tabona, â€œA survey on missing data in machine learning,â€ J Big Data, vol. 8, no. 1, Dec. 2021, doi: 10.1186/s40537-021-00516-9.

Y. A. Sir and A. H. H. Soepranoto, â€œPendekatan Resampling Data Untuk Menangani Masalah Ketidakseimbangan Kelas,â€ Jurnal Komputer dan Informatika, vol. 10, no. 1, pp. 31â€“38, Mar. 2022, doi: 10.35508/jicon.v10i1.6554.

A. Arafa, N. El-Fishawy, M. Badawy, and M. Radad, â€œRN-SMOTE: Reduced Noise SMOTE based on DBSCAN for enhancing imbalanced data classification,â€ Journal of King Saud University - Computer and Information Sciences, vol. 34, no. 8, pp. 5059â€“5074, Sep. 2022, doi: 10.1016/j.jksuci.2022.06.005.

N. Sekar Ramadhanti and W. Ananta Kusuma, â€œOPTIMASI DATA TIDAK SEIMBANG PADA INTERAKSI DRUG TARGET DENGAN SAMPLING DAN ENSEMBLE SUPPORT VECTOR MACHINE,â€ vol. 7, no. 6, 2020, doi: 10.25126/jtiik.202072857.

J. Platt, â€œSequential minimal optimization: A fast algorithm for training support vector machines,â€ 1998.

N. V Chawla, K. W. Bowyer, L. O. Hall, and W. S. Philip Kegelmeyer, â€œsynthetic minority over-sampling Technique,â€ J Artif Intell Res, p. 16, 2018.