Sabtu, 07 April 2018

Penerapan Data Mining dalam Memprediksi Pembelian cat



 Pengertian Data Mining

Data Mining adalah Serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basisdata dengan melakukan penggalian pola-pola dari data dengan tujuan untuk memanipulasi data menjadi informasi yang lebih berharga yang diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata.
Data mining biasa juga dikenal nama lain seperti : Knowledge discovery (mining) in databases (KDD), ekstraksi pengetahuan (knowledge extraction) Analisa data/pola dan kecerdasan bisnis (business intelligence) dan merupakan alat yang penting untuk memanipulasi data untuk penyajian informasi sesuai kebutuhan user dengan tujuan untuk membantu dalam analisis koleksi pengamatan perilaku, secara umum definisi data-mining dapat diartikan sebagai berikut
  • Proses penemuan pola yang menarik dari data yang tersimpan dalam jumlah besar.
  • Ekstraksi dari suatu informasi yang berguna atau menarik (non-trivial, implisit, sebefumnya belum diketahui potensial kegunaannya) pola atau pengetahuan dari data yang disimpan dalam jumfah besar.
  • Ekplorasi dari analisa secara otomatis atau semiotomatis terhadap data-data dalam jumlah besar untuk mencari pola dan aturan yang berarti.
Alasan utama mengapa data mining sangat menarik perhatian industri informasi dalam beberapa tahun belakangan ini adalah karena tersedianya data dalam jumlah yang besar dan semakin besarnya kebutuhan untuk mengubah data tersebut menjadi informasi dan pengetahuan yang berguna karena sesuai fokus bidang ilmu ini yaitu melakukan kegiatan mengekstraksi atau menambang pengetahuan dari data yang berukuran/berjumlah besar, informasi inilah yang nantinya sangat berguna untuk pengembangan. berikut langkah-langkahnya :
  1. Data cleaning (untuk menghilangkan noise data yang tidak konsisten) Data integration (di mana sumber data yang terpecah dapat disatukan)
  2. Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke dalam database)
  3. Data transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat untuk menambang dengan ringkasan performa atau operasi agresi)
  4. Knowledge Discovery (proses esensial di mana metode yang intelejen digunakan untuk mengekstrak pola data)
  5. Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik)
  6. Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan digunakan untuk memberikan pengetahuan yang telah ditambang kepada user).

ALGORITMA DATA MINING
A.    Decision Tree

Decision tree adalah sebuah diagram alir yang berbentuk seperti struktur pohon yang mana setiap internal node menyatakan pengujian terhadap suatu atribut, setiap cabang menyatakan output dari pegujian tersebut dan leaf node menyatakan kelas–kelas atau distribusi kelas. Node yang paling atas disebut sebagai root node atau node akar. Sebuah root node akan memiliki beberapa edge keluar tetapi tidak memiliki edge masuk, internal node akan memiliki satu edge masuk dan beberapa edge keluar, sedangkan leaf node hanya akan memiliki satu edge masuk tanpa memiliki edge keluar. Decision tree digunakan untuk mengklasifikasikan suatu sampel data yang belum diketahui kelasnya ke dalam kelas–kelas yang sudah ada. Decision tree merupakan metode yang ada pada teknik klasifikasi dalam data mining.Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon pohon keputusan yang mempresentasikan aturan. Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara jumlah calon variable input dengan sebuah variabel target.
Terdapat 3 jenis node yang terdapat pada decision tree yaitu:
a)      Root node, merupakan Node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu.
b)      Internal Node, merupakan Node percabangan. Pada node ini terdapat percabangan. Pada node ini terdapat satu input dan memiliki output mininmal dua.
c)      Leaf node atau terminalnode, merupakan Node akhir. Pada node ini terdapat satu input dan tidak mempunyai output.

Konsep Desicion Tree adalah mengubah data menjadi pohon keputusan (Dsicio Tree) dan Aturan Keputusan (Rule)

Algoritma dalam Descion Tree

Ada banyak algoritma pada klasifikasi decision tree ini. Suatu algoritma biasanya dikembangkan untuk meningkatkan kinerja algoritma yang sudah ada. Penentuan algoritma yang terbaik dalam decision tree tentunya tidak bisa ditentukan secara mutlak tetapi sangat tergantung dengan karakteristik training set-nya. Beberapa algoritma decision tree yang cukup populer antara lain : ID3, C4.5, dan CART.

Desicion Tree adalah metode klasifikasi yang paling populer karena muda di interpretasikan oleh manusia. Desicion Tree digunakan untuk pengenalan pola dan termasuk dalam pola secara statistik. 

Contoh Kasus Desicion Tree 

Faktor yang menjadi penentu dalam pembelian cat oleh home smart adalah tingkat animo customer terhadap produk cat yang dapat dilihat berdasarkan hasil penjualan merek cat dengan warna cat tertentu pada home smart, jika hasil penjualan cat tersebut tinggi maka animo customer tinggi terhadap cat tersebut. Kompetisi supplier juga menjadi indikator dalam pembelian cat dimana persaingan supplier dalam menawarkan produk mereka kepada home smart dengan memberikan cat dengan kualitas Super, Medium dan standar dengan penawaran harga yang berbeda. Tingkat kompetisi dikatakan tinggi jika hasil penjualan cat dari supplier tersebut tinggi dan banyak diminati oleh customer. Berdasarkan analisa tersebut dapat ditentukan variabel-variabel yang digunakan dalam penentuan pembelian cat dengan mempertimbangkan faktor di atas yaitu : kualitas, harga, animo dan kompetisi.
Adapun Pra proses dalam mengelompokan kualitas yaitu antara lain


 klasifikasi harga cat dibagi menjadi 3 kelas yaitu :
Harga terjangkau dengan range harga dibawah Rp 76.000, mahal dengan harga diatas Rp 150.000, dan sedang dengan range 76.000 hingga 150.000
Setelah itu mengklasifikaskan animo masyarakat yaitu :
Animo dikatakan rendah jika penjualan produk Rp 500.000 hingga 5.500.000, animo dikatakan sedang jika penjualan mencapai Rp 5.600.000 hingga 16.000.000 dan animo dikataka tinggi jika penjualan lebih dari Rp 16.000.000
Selannjutnya adalah mengklasifikasi kompetisi :
Kompetisi dikatakan rendah jika penjualan Rp 10.000.000 hingga 40.000.000, Kompetisi dikatakan sedang jika mencapai RP 41.000.000 dan kompetisi dikatakan tinggi jika mencapai lebih dari Rp 50.000.000

B.     Naive Bayes

Naive Bayes merupakan sebuah pengklasifikasian probabilistik sederhana yang menghitung sekumpulan probabilitas dengan menjumlahkan frekuensi dan kombinasi nilai dari dataset yang diberikan. Algoritma mengunakan teorema Bayes dan mengasumsikan semua atribut independen atau tidak saling ketergantungan yang diberikan oleh nilai pada variabel kelas. Definisi lain mengatakan Naive Bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman dimasa sebelumnya. Naive Bayes didasarkan pada asumsi penyederhanaan bahwa nilai atribut secara kondisional saling bebas jika diberikan nilai output. Dengan kata lain, diberikan nilai output, probabilitas mengamati secara bersama adalah produk dari probabilitas individu.
Keuntungan penggunaan Naive Bayes adalah bahwa metode ini hanya membutuhkan jumlah data pelatihan (Training Data) yang kecil untuk menentukan estimasi paremeter yang diperlukan dalam proses pengklasifikasian. Naive Bayes sering bekerja jauh lebih baik dalam kebanyakan situasi dunia nyata yang kompleks dari pada yang diharapkan

C.     Logistic Regression

Regresi logistik (Logistic regression)adalah bagian dari analisis regresi yang digunakan ketika variabel dependen (respon) merupakan variabel dikotomi. Variabel dikotomi biasanya hanya terdiri atas dua nilai (Santosa, 2007) yang mewakili kemunculan atau tidak adanya suatu kejadian yang biasanya diberi angka 0 atau 1.   Tidak seperti regresi linier biasa, regresi logistik tidak mengasumsikan hubungan antara variabel independen dan dependen secara linier. Ada beberapa penelitian yang menggunakan komparasi algoritma klasifikasi untuk mengukur akurasi terhadap dataset marketing bank:
1.      Could Decision trees Improve the Classification Accuracy and Interpretability of Loan   Granting Decision? penelitian yang dilakukan (Zurada,2010). Yang melakukan komparasi dari beberapa metode diantaranya adalah regresi logistik(LR), jaringan saraf (NN), dasar fungsi jaringan saraf radial (RBFNN), SVM, CBR, dan pohon keputusan (DTs). Dari semua model ternyata tingkat klasifikasi akurasi yang mengungguli adalah Decision trees, DTs tidak hanya mengklasifikasikan lebih baik dari model-model yang lain tapi juga memiliki pengetahuan dalam membentuk aturan yang mudah ditafsirkan, masuk akal dalam menjelaskan tentang alasan penolakan pinjaman.
2.      Comparing decision trees with logistic regression for credit risk analysis  (Satchidananda & Simha,2006). Penelitian ini membandingkan dua model algoritma untuk analisa resiko kredit, yaitu Pohon Keputusan dan Regresi Logistik. Data diambil dari dua bank yang berbeda, kemudian untuk mengelompokkan kasus positif dan negatif maka  dilakukan klustering data dengan menggunakan k-means. Hasil analisa dari masing-masing model dikomparasi dan kemudian diukur,kemudian didapatkan bahwa algoritma pohon keputusan mempunyai tingkat akurasi yang tinggi dibandingkan algoritma regresi logistik.

D.    Support Vector Machine (SVM)

Support Vector Machine (SVM) adalah suatu teknik untuk melakukan prediksi, baik dalam kasus klasifikasi maupun regresi (Santosa, 2007). SVM memiliki prinsip dasar linier classifier yaitu kasus klasifikasi yang secara linier dapat dipisahkan, namun SVM telah dikembangkan agar dapat bekerja pada problem non-linier dengan memasukkan konsep kernel pada ruang kerja berdimensi tinggi. Pada ruang berdimensi tinggi, akan dicari hyperplane (hyperplane) yang dapat memaksimalkan jarak (margin) antara kelas data.


Tahapan Proses KDD

1. Data Selection
  • Menciptakan himpunan data target , pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan (discovery) akan dilakukan. 
  • Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing/ Cleaning 
  • Pemprosesan pendahuluan dan pembersihan data merupakan operasi dasar seperti penghapusan noise dilakukan. 
  • Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. 
  • Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). 
  • Dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.
3. Transformation
  • Pencarian fitur-fitur yang berguna untuk mempresentasikan data bergantung kepada goal yang ingin dicapai.
  • Merupakan proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses ini merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data
4. Data mining
  • Pemilihan tugas data mining; pemilihan goal dari proses KDD misalnya klasifikasi, regresi, clustering, dll. 
  • Pemilihan algoritma data mining untuk pencarian (searching) 
  • Proses Data mining yaitu proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5. Interpretation/ Evaluation
  • Penerjemahan pola-pola yang dihasilkan dari data mining. 
  • Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah mimengerti oleh pihak yang berkepentingan. 
  • Tahap ini merupakan bagian dari proses KDD yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.

Sumber :
http://journal.lppmunindra.ac.id/index.php/Faktor_Exacta/article/viewFile/740/650
http://www.sigitprabowo.id/2013/04/data-mining-tahap-tahapan-knowladge.html  
http://gsbipb.com/?p=821




Tidak ada komentar:

Posting Komentar