Kombinasi Linier Target Data Untuk Regresi Multitarget Menggunakan Principal Component Analysis

Yonathan Purbo Santosa

doi:10.54914/jtt.v9i1.516

Penulis

Yonathan Purbo Santosa Universitas Katolik Soegijapranata

DOI:

https://doi.org/10.54914/jtt.v9i1.516

Kata Kunci:

PCA, reduksi dimensi, regresi linier, regresi multidimensi, regresi multitarget

Abstrak

Regresi linier adalah metode untuk memprediksi sebuah nilai (variabel dependen) berdasarkan beberapa input (variabel independen). Permasalahan pada regresi linier adalah beberapa data tidak termasuk ke dalam kategori linier. Sebuah metode bernama RLC diciptakan untuk menemukan korelasi antara data output dengan cara memproyeksikan data ke dalam dimensi yang lebih tinggi. Sayangnya, metode RLC tidak dapat diinvers transformasinya. Selain itu, dengan memproyeksikan data ke dimensi yang lebih tinggi akan menambah kompleksitas dari algoritma pembelajaran. Oleh karena itu, PCA akan digunakan untuk memecahkan masalah ini dengan cara memproyeksikan data ke dimensi yang lebih rendah sembari mempertahankan kemampuan untuk melakukan invers proyeksi. Penelitian ini diimplementasikan dengan bantuan library scikit-learn untuk membuat model regresi dan transformasi data dengan menggunakan bahasa pemrograman Python. Hasilnya, untuk 12 dataset, metode augmentasi PCA mampu mendapatkan nilai error yang lebih rendah dalam 7 dataset dibandingkan dengan RLC dengan rata-rata nilai error 0.3270 untuk metode augmentasi PCA dan 0.4003 untuk metode augmentasi RLC.

Unduhan

Data unduhan belum tersedia.

Referensi

C. Wallisch et al., â€œReview of guidance papers on regression modeling in statistical series of medical journals,â€ PLoS One, vol. 17, no. 1, p. e0262918, Jan. 2022, doi: 10.1371/JOURNAL.PONE.0262918.

Anila. M and G. Pradeepini, â€œLeast Square Regression for Prediction Problems in Machine Learning using R,â€ International Journal of Engineering & Technology, vol. 7, no. 3.12, pp. 960â€“962, Jul. 2018, doi: 10.14419/IJET.V7I3.12.17612.

T. Nabarian, M. Aris Ganiardi, and R. F. Malik, â€œImplementasi Metode Hibrid Fuzzy C-Means dan Fuzzy Swarm untuk Pengelompokkan Data Benang Perusahaan Tekstil,â€ Jurnal Teknologi Terpadu, vol. 6, no. 1, pp. 39â€“45, Jul. 2020, doi: 10.54914/JTT.V6I1.247.

Carudin, â€œPemanfaatan Data Transaksi untuk Dasar membangun Strategi berdasarkan Karakteristik Pelanggan dengan Algoritma K-Means Clustering dan Model RFM,â€ Jurnal Teknologi Terpadu, vol. 7, no. 1, pp. 7â€“14, Jul. 2021, doi: 10.54914/JTT.V7I1.318.

J. N. Hussain, â€œHigh dimensional data challenges in estimating multiple linear regression,â€ J Phys Conf Ser, vol. 1591, no. 1, p. 12035, 2020, doi: 10.1088/1742-6596/1591/1/012035.

I. H. Sarker, â€œMachine Learning: Algorithms, Real-World Applications and Research Directions,â€ SN Comput Sci, vol. 2, no. 3, pp. 1â€“21, May 2021, doi: 10.1007/S42979-021-00592-X/FIGURES/11.

S. Jameel and S. Schockaert, â€œModeling context words as regions: An ordinal regression approach to word embedding,â€ CoNLL 2017 - 21st Conference on Computational Natural Language Learning, Proceedings, pp. 123â€“133, 2017, doi: 10.18653/V1/K17-1014.

S. A. T. al Azhima, D. Darmawan, N. F. A. Hakim, I. Kustiawan, M. al Qibtiya, and N. S. Syafei, â€œHybrid Machine Learning Model untuk memprediksi Penyakit Jantung dengan Metode Logistic Regression dan Random Forest,â€ Jurnal Teknologi Terpadu, vol. 8, no. 1, pp. 40â€“46, Jul. 2022, doi: 10.54914/JTT.V8I1.539.

M. Bataineh and T. Marler, â€œNeural network for regression problems with reduced training sets,â€ Neural Networks, vol. 95, pp. 1â€“9, 2017, doi: https://doi.org/10.1016/j.neunet.2017.07.018.

S. LathuiliÃ¨re, P. Mesejo, X. Alameda-Pineda, and R. Horaud, â€œA Comprehensive Analysis of Deep Regression,â€ IEEE Trans Pattern Anal Mach Intell, vol. 42, no. 9, pp. 2065â€“2081, 2020, doi: 10.1109/TPAMI.2019.2910523.

D. RÃ¼gamer et al., â€œdeepregression: a Flexible Neural Network Framework for Semi-Structured Deep Distributional Regression,â€ arXiv:2104.02705 [cs, stat], 2021, [Online]. Available: http://arxiv.org/abs/2104.02705

G. Tsoumakas, E. Spyromitros-Xioufis, A. Vrekou, and I. Vlahavas, â€œMulti-Target Regression via Random Linear Target Combinations,â€ arXiv:1404.5065 [cs], vol. 8726, pp. 225â€“240, 2014, doi: 10.1007/978-3-662-44845-8_15.

Q. Zhao, E. Adeli, N. Honnorat, T. Leng, and K. M. Pohl, â€œVariational AutoEncoder for Regression: Application to Brain Aging Analysis,â€ Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), vol. 11765 LNCS, pp. 823â€“831, 2019, doi: 10.1007/978-3-030-32245-8_91/COVER.

Muthukrishnan R and Maryam Jamila S, â€œPredictive Modeling Using Support Vector Regression,â€ International Journal of Scientific & Technology Research, vol. 9, no. 2, pp. 4863â€“4865, Feb. 2020, Accessed: Dec. 06, 2022. [Online]. Available: www.ijstr.org

K. Berggren et al., â€œRoadmap on emerging hardware and technology for machine learning,â€ Nanotechnology, vol. 32, no. 1, p. 012002, Oct. 2020, doi: 10.1088/1361-6528/ABA70F.

W. Chiang, X. Liu, T. Zhang, and B. Yang, â€œA Study of Exact Ridge Regression for Big Data,â€ Proceedings - 2018 IEEE International Conference on Big Data, Big Data 2018, pp. 3821â€“3830, Jan. 2019, doi: 10.1109/BIGDATA.2018.8622274.

D. Xu, Y. Shi, I. W. Tsang, Y.-S. Ong, C. Gong, and X. Shen, â€œA Survey on Multi-output Learning,â€ Jan. 2019, doi: 10.48550/arxiv.1901.00248.

P. Boye, D. Mireku-Gyimah, and C. A. Okpoti, â€œMultiple Linear Regression Model for Estimating the Price of a Housing Unit,â€ Ghana Mining Journal, vol. 17, no. 2, pp. 66â€“77, 2017, doi: 10.4314/gm.v17i2.9.

N. Herawati, K. Nisa, E. Setiawan, N. Nusyirwan, and T. Tiryono, â€œRegularized multiple regression methods to deal with severe multicollinearity,â€ Int J Stat Appl, vol. 8, no. 4, pp. 167â€“172, 2018.

O. Eguasa, E. Edionwe, and J. I. Mbegbu, â€œLocal Linear Regression and the problem of dimensionality: a remedial strategy via a new locally adaptive bandwidths selector,â€ https://doi.org/10.1080/02664763.2022.2026895, 2022, doi: 10.1080/02664763.2022.2026895.

Y. Xu, S. Balakrishnan, A. Singh, and A. Dubrawski, â€œRegression with Comparisons: Escaping the Curse of Dimensionality with Ordinal Information,â€ Journal of Machine Learning Research, vol. 21, no. 162, pp. 1â€“54, 2020, [Online]. Available: http://jmlr.org/papers/v21/19-505.html

T. GÃ³recki and M. Åuczak, â€œStacked Regression With a Generalization of the Moore-Penrose Pseudoinverse,â€ Statistics in Transition New Series, vol. 18, no. 3, pp. 443â€“458, 2017, doi: doi:10.21307/stattrans-2016-080.

S. Katoch, S. S. Chauhan, and V. Kumar, â€œA review on genetic algorithm: past, present, and future,â€ Multimed Tools Appl, vol. 80, no. 5, pp. 8091â€“8126, Feb. 2021, doi: 10.1007/S11042-020-10139-6/FIGURES/8.

F. Pedregosa et al., â€œScikit-learn: Machine Learning in Python,â€ Journal of Machine Learning Research, vol. 12, pp. 2825â€“2830, 2011.

C. R. Harris et al., â€œArray programming with NumPy,â€ Nature 2020 585:7825, vol. 585, no. 7825, pp. 357â€“362, Sep. 2020, doi: 10.1038/s41586-020-2649-2.

A. Asuncion and D. Newman, â€œUCI: Machine Learning Repository : Solar Flare Dataset,â€ 1989. http://archive.ics.uci.edu/ml/datasets/Solar+Flare (accessed Jun. 05, 2022).

S. DÅ¾eroski, D. Demsar, and J. GrboviÄ‡, â€œPredicting Chemical Parameters of River Water Quality from Bioindicator Data,â€ Applied Intelligence, vol. 13, pp. 7â€“17, 2000, doi: 10.1023/A:1008323212047.

E. Spyromitros-Xioufis, G. Tsoumakas, W. Groves, and I. Vlahavas, â€œMulti-target regression via input space expansion: treating targets as inputs,â€ Mach Learn, vol. 104, no. 1, pp. 55â€“98, 2016, doi: 10.1007/s10994-016-5546-z.

A. Karalic and I. Bratko, â€œFirst Order Regression,â€ Mach Learn, vol. 26, pp. 147â€“176, 1997, doi: 10.1023/A:1007365207130.