top of page

Lazada Rating Production Prediction

Writer's picture: Adib Ahmad IstiqlalAdib Ahmad Istiqlal

Project Overview

Perkembangan teknologi telah membuat pergeseran perilaku pelanggan dari pembelian melalui offline shop ke online shop. Pembelian secara online membuat pelanggan melakukan transaksi terhadap barang yang diinginkan darimana saja. Hal tersebut banyak mempengaruhi persepi pelanggan jika ingin melakukan pembelian antara lain harga, produksi, promosi dan tempat [1]. Berdasarkan persepi tersebut banyak strategi yang dilakukan dari sisi penjual untuk meningkatkan penjualannya diantaranya adalah Online Customer Rating. Online Customer Rating adalah bagian review yang menggunakan bentuk symbol bintang daripada bentuk teks dalam mengekspresikan pendapat pelanggan [1]. Rating dapat diartikan sebagai penilaian dari pengguna pada refensi pelanggan yang mengacu pada keadaa n psikologis dan emosional terhadap suatu barang [2]. Tingkat rating yang kuantitasnya lebih dari 25% dengan rating yang diberikan buruk, maka pelanggan akan 2 kali berpikir untuk membeli produk tersebut [3]. Pengaruh rating yang cukup tinggi memberikan penjual memikirkan strategi yang tepat untuk meningkatkan penjualan. Pada projek ini akan mencoba memprediksi menggunakan pendekatan machine learning tingkat rata-rata rating pada suatu produk berdasarkan harga, kategori dan total reviews yang didapatkan pada produk tersebut. Dataset didapatkan dari website Kaggle dengan nama dataset Lazada review yang berisi informasi seputar produk. Tahapan yang akan dilakukan adalah EDA, Data Preprocessing, Model dan Evaluasi. Model yang digunakan pada projek ini ialah Support Vector Regressor, Linear Regression dan Boosting Model.



Business Understanding

Pada pernyataan yang telah dijelaskan, masalah yang diangkat adalah

  1. Bagaimana mengetahui korelasi fitur lain terhadap label (rata-rata rating)?

  2. Bagaimana kemampuan model yang digunakan dalam melakukan prediksi pada nilai label?

Tujuan dari masalah yang diangkat adalah

  1. Mengetahui fitur-fitur yang memiliki pengaruh kuat terhadap label

  2. Mengetahui model machine learning dalam melakukan prediksi terhadap dataset yang digunakan

Solusi yang digunakan adalah

  1. Melihat pengecekan outliers dan distribusi data

  2. Menggunakan fungsi korelasi pandas dengan visualisasi dari seaborn (heatmap)

  3. Melakukan Univariate dan Multivariate fitur-fitur independent (fitur yang dinyatakan bukan sebagai label)

  4. Melakukan Evaluasi dengan Mean Squared Error (MAE)


Data Understanding

Dataset yang digunakan pada projek ini adalah dataset Lazada Review yang didapatkandari Kaggle yang terdiri dari 10942 bari dan 9 fitur.Fitur yang terdapatantara lain.

  1. itemId: Nomor identitas dari tiap-tiap produk(Tipe numerik)

  2. category (Tipe objek): Jenis kategori tiap produk. Kategori pada dataset ini terdiridari

a. beli-hardisk-eksternal

b. jual-flash-drives

c. beli-smart-tv

d. shop-televisi-digital

e. beli-laptop


3. name: Nama dari tiap-tiap produk (Tipeobjek)

4. brandName: Nama brand yang mengeluarkan produktersebut (Tipe objek)

5. url: alamat website dari produk tersebut(Tipe objek)

6. price: Harga dari produk tersebut (Tipe numerik)

7. averageRating: rata-ratatingkat rating produktersebut (Tipe numerik)

8. totalReviews: Total reviews yang didapatkan pada produk tersebut(Tipe numerik)

9. retrievedDate: Tanggalterakhir diakses produktersebut (Tipe objek)


Pada projek ini fitur yang digunakansebagai fitur dependent/label adalah fitur averageRating dantahapan yang digunakan adalah Exploratory Data Analisis(EDA) yang mencakup.


1. Cek data null dan menghapusoutlier menggunakan rumusIQR (Interquartile Range).


Jika dilihat, bahwa nilai outlier price, averageRating, dan total reviews memiliki total outlier yang tinggi. Projek ini langsungmenghapus data outliertersebut dengan rumus matematis IQR dikarenakan jumlah data yang dimiliki terbilangbesar.\

Setelah data outlierdihapus, data yang tersisa7796 baris dan 9 kolom.


2. Univariate Analysis terhadap fiturkategori dan fitur numerik.

a. Kategorik

Fitur yang digunakan pada projek ini adalah fitur category. Hal ini untuk mencegah dimensi/fitur yang banyak saat melakukan One-HotEncoder. Dimensi yang terlalu banyakdapat menurunkan tingkatkeakuratan model yang digunakan pada projek ini dalam melakukan prediksi. Hal lainnyaadalah penyimpanan data yang lebih sedikit, mengurangi waktu komputasi, dan kualitas data yang meningkat [4]. Berikut nilai unik pada tiap-tiap fitur.

Fiturcategoryyangmemilikidataunikpalingsedikitmerupakanalasanfiturcategoryakandigunakan pada tahap selanjutnya. Berikut frekuensi dan presentasi data unik pada fiturcategory.




b. Numerik

Fitur numerik yang digunakan adalah fitur price, averageRating, totalReviews. ItemIdtidakdigunakan karena ialahidentitas dariproduktersebut

  • Pada distribusi nilai price, semakin tinggi nilai yang dihasilkan akan menurunkan hasil frequency nilai tersebut

  • Total reviews bergerak berbandinglurus dengan nilai price dimana semakin tingginilai price. Maka total reviews yang didapatkan semakin tinggidan sebaliknya.

  • Tingginya total reviews dengan nilai price yang kecil menghasilkan nilai rata-rata rating(averageRating) yang menurun.

  • Kesimpulan, user lebih menyukaipembelian dengan harga yang lebih kecil namun dengan rata-ratarating yang didapatkan cukup rendah

3. Multivariate Analysis terhadap fitur kategori dan numerik terhadap label.

a. Kategorik Tahapan ini melihatpengaruh nilai pada fitur categoryterhadap label (fituraverageRating).

Nilai pada tiap-tiap nilai kategori memilikinilai yang sama. Sehingga bisa disumpulkan bahwafitur category memilikipengaruh yang lemah.

b. Numerik

Pada fiturnumerik, akan menggunakan visualisasi distplot untukmengetahui persebaran data dan tingkatkorelasinya.

Ternyata dapat diketahui bahwa nilai price terhadapaverageRating tingkat persebaran datanya tidak linear dan hal itu berbanding terbalik pada totalReviews terhadap averageRating. Untuk mengetahui angka korelasi akan digunakan sns.heatmap.

Ternyata korelasi yang didapatkan antara price dengan averageRating di bawah 0.5 dan korelasi antaratotalReviews dan averageRating besifat minum yang artinya bahwa jumlah reviews akan berbanding dengan nilai averageRating yang didapatkan. Nilai rentangkorelasi dimulai dari -1 hingga +1 [5].


Data Preparation

Tahapan yang dilakukan pada data preparation projekini adalah

1. One-Hot Encoder.

One-Hot Encoder merupakan metode binary converter dimana nilai ‘1’ dilambangkan untuk tiapkondisi yang sesuai dan nilai ‘0’ sebagai kondisi yang tidak sesuai [6]. Projek ini menggunakan dummies milik pandas untuk melakukan one-hotencoder pada fitur category

2. Split dataset dengan presentasi 90% (Train dataset): 10% (Testing dataset).

Setelah melakukan one-hot encoder, akan dilakukan pembagian dataset dengan presentasi 90:10. Pembagian data ini bersifatsubjektif tergantung proporsidata yang dimiliki.Semakin besar datasetyang dimiliki maka proposi data train lebihbanyak [7].

3. Transformasi data menggunakan fungsi Standard Scaler.

Standardization adalah metodeyang mengubah rentangnilai yang besarmenjadi rentang nilai yang ragam. Rentang nilai yang terlalu besar dapat menyebabkan perhitungan jarak menjadi bias yang berpengaruh terhadap model [8]. Transformasi dilakukan setelah melakukan pemisahan data train dan data testing. Hal tersebut bertujuan untuk mencegah bedanya rentang nilai setelah normalisasi [9]. Data training perlu dilakukan fit dan transform, namun data testing hanya perlu melakukan transform. Hal tersebut dikarenakan data testing digunakanuntuk menguji model dari hasil standardization data train yang telah dilatih model.


Modeling

Model yang digunakan pada projek ini ialah Support Vector Regressor (SVR), Boosting Algorithm, Linear Regression.

1. Support Vector Regressor (SVR)

SVR merupakan bagian dari support vector machine (SVM). Tipe kernel yang digunakan pada projek ini adalah radial basis function (RBF). Hal tersebut dikarenakan data yang tidak terpisah secaralinear.


2. Boosting Algorithm

Algoritma ini bertujuan untuk meningkatkan performaatau akurasi prediksidengan cara menggabungkan beberapa model sederhana. Boosting sendiri terbagi menjadi adaptive boosting dan gradient boosting. Pada projek ini akan menggunakan adaptive boosting.

3. Linear Regression

Linear regression merupakan model yang sering digunakan dalam permasalahan prediksi tipe data numerik.


Evaluation

Tahapan ini akan mengevaluasi model yang telah terbentuk denganpendekatan matematis yaitu Mean SquaredError (MSE) dan melihat hasil prediksi dengan data actual.


1. Mean SquaredError (MSE)

MSE merupakan salah satu model evaluasi terbaik pada masalah regresi. MSE sendiri bekerja melakukan perhitungan error antara nilai hasil prediksi dengan nilai sebesarnya. Berikut formula dari MSE [10].MSE sendiri bekerjamelakukan perhitungan error antara nilai hasil prediksidengan nilai sebesarnya. Berikut formula dari MSE.


Formula diatasla yang digunakan untuk mengevaluasi hasil prediksi model. Semakin besar nilai MSE, maka semakin buruk kinerjamodel dan sebaliknya [11].


Terjanya nilai MSE yang dihasilkan tiap model dibawah 0.5. Hal ini menyatakan bahwa kinerjamodel cukup baik dengan model Boosting memiliki MAE lebih kecil dari sisi train dan testing.Selanjutnyaakanmengujidataactualyangdiambildari3 data dari data testing.

Pada hasil tersebut menyatakan kinerja model baik di averageRating dengan index 0, 2, 3, 4. Hal tersebut searah dengan tingkat MAE yang dihasilkan.



DAFTAR PUSTAKA

[1] A. Farki, I. Baihaqi,and M. Wibawa, “Pengaruh onlinecustomer review ratingterhadap kepercayaan place diindonesia,” vol. 5, no. 2, 2016. [2] N. Li and P. Zhang,“Consumer online shoppingattitudes and behavior:An assessment of research,” Eighth Am. Conf. Inf. Syst., no. October 2002, pp. 508–517, 2002. [3] A. Farhan Hasrul, Suharyati, and R. Sembiring, “Analisis Pengaruh Online Customer Review dan Rating Terhadap Minat Beli Produk Elektronik di Tokopedia,” KORELASI. Konf. Ris. Nas. Ekon. Manajemen, dan Akuntansi. Fak.,vol. 2, no. 1, pp. 1352–1365, 2021, [Online]. Available: https://conference.upnvj.ac.id/index.php/korelasi/article/view/1155/857 [4] D. Hediyati and I. M. Suartana, “Penerapan Principal Component Analysis (PCA) Untuk Reduksi Dimensi Pada Proses Clustering Data Produksi Pertanian Di Kabupaten Bojonegoro,” J. Inf. Eng. Educ. Technol., vol. 5, no. 2, pp.49–54, 2021, doi: 10.26740/jieet.v5n2.p49-54. [5] R. A. Wibowo, A. A. Kurniawan, T. Elektro, and U. Tidar, “Theta Omega : Journal o f Electrical Engineering , Computer a nd Information Technology,” J. Electr. Eng. Comput. Inf. Technol., vol. 1, no. 2, pp. 1–6, 2020, [Online]. Available: https://jurnal.untidar.ac.id/index.php/thetaomega/article/view/3552 [6] M. Safitri, S. Priansya, R. P. Wibowo,and K. I. T. S. Sukolilo, “Ekstraksi Fitur Modular KebutuhanFungsional Ruang Baca Menggunakan Hierarchical Clustering & Pattern Recognition,” Sesindo 2016, 2016. [7] M. S. Baladina, “Perbandingan Nilai Akurasi AlgoritmaKlasifikasi Data Mining pada Mammographic Mass Dataset UCI MachineLearning,” no. 06211540000120, 2013. [8] N. Aini, A. Lestari, M. N. Hayati, F. Deny, and T. Amijaya, “Analisis cluster pada data kategorik dan numerik dengan pendekatan ClusterEnsemble (Studi kasus :puskesmas di ProvinsiKalimantan Timur kondisi Desember2017),” J. EKSPONENSIAL Vol. 11, vol. 11, pp. 117–126, 2020. [9] B. Vrigazova, “The Proportion for Splitting Data into Training and Test Set for the Bootstrap in Classification Problems,” Bus. Syst. Res., vol. 12, no. 1, pp. 228–242, 2021,doi: 10.2478/bsrj-2021- 0015. [10] I. Sungkawa and R. T. Megasari, “Nilai Ramalan Data Deret Waktu dalam SeleksiModel Peramalan VolumePenjualan PT SatriaMandiri Citra Mulia,” ComTech, vol. 2, no. 2, pp. 636–645, 2011. [11] I. Suprayogi, Trimaijon, and Mahyudin, “ModelPrediksi Liku KalibrasiMenggunakan Pendekatan JaringanSaraf Tiruan (ZST) (Studi Kasus : Sub DAS Siak Hulu),” J. Online Mhs. Fak. Tek. Univ.


Riau, vol. 1, no. 1, pp. 1–18, 2014.


5 views0 comments

Recent Posts

See All

Comments


bottom of page