Indonesia sebagai negara berkembang memiliki banyak parameter yang berkaitan mengenai stabilitas perkonomian maupun keuangan. Parameter yang bekaitan tersebut salah satunya adalah pendapatan e-commerce. Pada penelitian yang dilakukan Rianty dan Rahayu dengan judul Pengaruh E-commerce Terhadap Pendapatan UMKM Yang Bermitra Gojek Dalam Masa Pandemi Covid-19, menyatakan bahwa e-commerce memiliki pendapatan yang baik bagi negara khususnya dari segi UMKM dengan peningkatan total transaksi hingga 5%. Peningkatan yang cukup tinggi, pada permasalahan ini penulis ingin mengetahui bagaimana pendapatan e-commerce dari parameter penggunaaan sistem dan lamanya membership terhadap pendapatan e-commerce dengan menggunakan model machine learning classic menggunakan support vector regression yang merupakan kembangan support vector machine yang diperkenalkan oleh Vapnik pada tahun 1992. Pada penelitian Support Vector Regression (SVR) Dalam Memprediksi Harga Minyak Kelapa Sawit di Indonesia dan Nilai Tukar Mata Uang EUR/USD yang dilakukan oleh Saadah, dkk pada tahun 2021 menghasilkan akurasi yang hampir mendekati 100% Terumata pada penggunaan kernel RBF.
Business Understanding
Pada pernyataan yang telah dijelaskan, sehingga masalah yang diangkat adalah
Bagaimana pengaruh penggunaan sistem e-commerce dan lamanya membership user terhadapa pendapatan oleh e-commerce.
Bagaimana akurasi pendapatan e-commerce dengan sistem e-commerce dan lamanya membership user menggunakan kernel linear.
Tujuan dari masalah yang diangkat adalah
Mengetahui pengaruh korelasi terhadap parameter tersebut terhadap pendapatan oleh e-commerce
Mengetahui akurasi kernel linear terhadap prediksi pendapatan e-commerce dengan parameter penggunaan sistem e-commerce dan lamanya membership user
Solusi Statements yang dapat dilakukan
Menggunakan korelasi dengan bantuan visualisasi heatmap dengan library seaborns
Mengevaluasi hasil kernel linear dengan mean squared error
Melakukan optimasi parameter kernel linear dengan parameter aslinya yaitu C, untuk meningkatkan hasil akurasi.
Data Understanding
Dataset yang digunakan pada penelitian ini adalah dataset pakaian secara online yang dapat dilakukan dari website atau app. Sumber dataset ini berasal dari Kaggle.com. Adapun kolom-kolom pada dataset ini, antara lain.
E-mail : Alamat surat elektronik pengguna yang dapat digunakan sebagai ID.
Address : Alamat tempat tinggal dari pengguna
Avatar : Foto pengguna
Avg. Session Length : Lamanya Session pengguna pada sistem yang tercatat
Time on App : Lamanya penggunaan aplikasi perusahaan oleh pengguna
Time on Website : Lamanya penggunaan aplikasi perusahaan oleh pengguna
Length of Membership : Lamanya pengguna terdaftar
Yearly Amount Spent : Pendapatan dari pengguna terhadap perusahaan.
Pada kolom diatas, label yang digunakan adalah kolom Yearly Amount Spent dan total dataset dari dataset ini berjumlah 500 baris.
Tahapan yang dilakukan untuk memahami data adalah.
Teknik Visualisasi menggunakan matplotlib dan seaborn
Statistik data menggunkan pandas
Melakukan EDA
![](https://static.wixstatic.com/media/67563d_39bc9054ec9743c3a5e65ff2a9d93d88~mv2.png/v1/fill/w_284,h_239,al_c,q_85,enc_avif,quality_auto/67563d_39bc9054ec9743c3a5e65ff2a9d93d88~mv2.png)
![](https://static.wixstatic.com/media/67563d_be3e4a747f644463bf4d3396ae210485~mv2.png/v1/fill/w_525,h_258,al_c,q_85,enc_avif,quality_auto/67563d_be3e4a747f644463bf4d3396ae210485~mv2.png)
Disini saya tetap menggunakan outlier, meskipun data yang dimiliki sangat kecil. Saya tidak mengganti data pada nilai outliernya. Pada label yang digunakan, saya akan memprediksi nilai pada kolom Yearly Amount Spent. Menghasilkan total dataset baru sebear 476 baris.
![](https://static.wixstatic.com/media/67563d_1c43f958bcb14f47b389ed78574449a4~mv2.png/v1/fill/w_493,h_182,al_c,q_85,enc_avif,quality_auto/67563d_1c43f958bcb14f47b389ed78574449a4~mv2.png)
![](https://static.wixstatic.com/media/67563d_e2ae96bc215f4b938cda577bbf739beb~mv2.png/v1/fill/w_444,h_392,al_c,q_85,enc_avif,quality_auto/67563d_e2ae96bc215f4b938cda577bbf739beb~mv2.png)
Preprocessing
1. Reduction feature
Disini saya tidak menggunakan PCA dikarenakan tidak adanya korelasi yang tinggi antar fitur yang sama. Menurut perkiraan saya, Time On Website dengan Avg Session dapat dilakukan PCA. Namun dengan korelasi yang cukup rendah. Hal tersebut tidak perlu dilakukan dan yang saya gunakan hanyalah korelasi dengan rentang mendekati -1 dan +1
![](https://static.wixstatic.com/media/67563d_bd43484b346c480190f67020e07d0a14~mv2.png/v1/fill/w_479,h_48,al_c,q_85,enc_avif,quality_auto/67563d_bd43484b346c480190f67020e07d0a14~mv2.png)
2. Split data (75%:25%)
Untuk pembagian dataset, saya menggunakan 75% (Train) : 25% (Test) karena mengingat dataset yang kecil
![](https://static.wixstatic.com/media/67563d_3db812bc3c314e47a6e223f6b5efd67b~mv2.png/v1/fill/w_509,h_93,al_c,q_85,enc_avif,quality_auto/67563d_3db812bc3c314e47a6e223f6b5efd67b~mv2.png)
3. Standardization
Jenis standadization yang digunakan adalah StandardScaler milik sklearn.
Modeling
Pada proses modeling, model yang digunakan SVR dikarenakan permasalahan regresi dengan jenis kernel linear. Pada tahapan ini terdapat dua tahapan, yaitu tanpa optimasi parameter dan menggunakan optimasi parameter dari kernel linear itu sendiri (nilai C) dengan rentang nilai 1-20. Pada penelitian yang dilakukan Noviana Pratiwi dan Yudi Setyawan berjudul ANALISIS AKURASI DARI PERBEDAAN FUNGSI KERNEL DAN COST PADA SUPPORT VECTOR MACHINE STUDI KASUS KLASIFIKASI CURAH HUJAN DI JAKARTA, menjelaskan bahwa parameter C merupakan parameter untuk mengontrol nilai error yang berpengaruh pada margin yang terbentuk. Tahapan yang dilakukan ialah:
1. Mengimport library SVR dari sklearn dan membuat variable yang berisi SVR
![](https://static.wixstatic.com/media/67563d_0ff2d076236f4df19a8c8939d2a8e8dd~mv2.png/v1/fill/w_210,h_43,al_c,q_85,enc_avif,quality_auto/67563d_0ff2d076236f4df19a8c8939d2a8e8dd~mv2.png)
2. Mengimport library SVR dari sklearn dan membuat variable yang berisi SVR dan optimasi parameter C
![](https://static.wixstatic.com/media/67563d_0561dd3eb57c4aea96dfc3f14e8b1ea0~mv2.png/v1/fill/w_290,h_65,al_c,q_85,enc_avif,quality_auto/67563d_0561dd3eb57c4aea96dfc3f14e8b1ea0~mv2.png)
Adapun keunggulan dan kekurangan dari model SVR.
Keunggulan SVR
mampu menghindari overfiting
SVR efektif untuk menggeneralisasi sampel data yang sedikit
SVR mampu melakukan penyelesaian norm error pada saat pinalti outlier selama fase pelatihan. Hal ini yang diketahui dengan kernel trick
Kekurangan
kinerja SVR sangat bergantung terhadap parameter di dalamnya
Evaluation
Evaluasi yang digunakan pada hasil model ialah mean squared error. Alasan mengapa menggunakan metrik tersebut karena permasalahan yang diangkat mengenai regresi. Menurut Iwa Sungkawa dan Ries Tri Megasari pada penelitian PENERAPAN UKURAN KETEPATAN NILAI RAMALAN DATA DERET WAKTU DALAM SELEKSI MODEL PERAMALAN VOLUME PENJUALAN PT SATRIAMANDIRI CITRAMULIA menyatakan bahwa MSE merupakan salah satu model evaluasi terbaik pada masalah regresi. MSE sendiri bekerja melakukan perhitungan error antara nilai hasil prediksi dengan nilai sebesarnya. Berikut formula dari MSE.
![](https://static.wixstatic.com/media/67563d_ef290583b5be4aa886b44de509fb22a9~mv2.png/v1/fill/w_604,h_195,al_c,q_85,enc_avif,quality_auto/67563d_ef290583b5be4aa886b44de509fb22a9~mv2.png)
Hasil MSE yang didapatkan ialah
1. Tanpa optimasi
![](https://static.wixstatic.com/media/67563d_0f63142a797f4fa3a1ce98c26f4f4a0b~mv2.png/v1/fill/w_569,h_78,al_c,q_85,enc_avif,quality_auto/67563d_0f63142a797f4fa3a1ce98c26f4f4a0b~mv2.png)
2. Menggunakan Optimasi
Train
![](https://static.wixstatic.com/media/67563d_1d1ad5b105e142e9ac4fcca6b3151778~mv2.png/v1/fill/w_336,h_283,al_c,q_85,enc_avif,quality_auto/67563d_1d1ad5b105e142e9ac4fcca6b3151778~mv2.png)
Test
![](https://static.wixstatic.com/media/67563d_e7036eb8ebf343a8b1609de6dea4c275~mv2.png/v1/fill/w_327,h_282,al_c,q_85,enc_avif,quality_auto/67563d_e7036eb8ebf343a8b1609de6dea4c275~mv2.png)
Hasil prediksi dengan nilai
![](https://static.wixstatic.com/media/67563d_246207945fb54166b5245e3991a227e8~mv2.png/v1/fill/w_211,h_91,al_c,q_85,enc_avif,quality_auto/67563d_246207945fb54166b5245e3991a227e8~mv2.png)
Pada hasil diatas dapat disimpulkan bahwa, kernel linear tanpa nilai C dan menggunakan nilai C hasil MSE tidak cukup berbeda jauh. Namun hasil prediksi yang didapatkan pada index ke-1 pada tanpa nilai C dan menggunakan nilai C mengalami perbedaan yang signifikan sekitar 7%. Hal ini menyatakan bahwa kernel linear dengan permasalahan regresi masih belum cukup baik dan dapat dilakukan percobaan kernel RBF seperti pada penelitian Support Vector Regression (SVR) Dalam Memprediksi Harga Minyak Kelapa Sawit di Indonesia dan Nilai Tukar Mata Uang EUR/USD yang dilakukan oleh Saadah, dkk
Berikut File Lengkap Codingannya.
コメント