Pengertian Data Mining
Data Mining adalah Serangkaian proses untuk menggali nilai tambah berupa
informasi yang selama ini tidak diketahui secara manual dari suatu basisdata
dengan melakukan penggalian pola-pola dari data dengan tujuan untuk
memanipulasi data menjadi informasi yang lebih berharga yang diperoleh dengan
cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang
terdapat dalam basisdata.
Data mining biasa juga
dikenal nama lain seperti : Knowledge discovery (mining) in databases (KDD),
ekstraksi pengetahuan (knowledge extraction) Analisa data/pola dan kecerdasan
bisnis (business intelligence) dan merupakan alat yang penting untuk
memanipulasi data untuk penyajian informasi sesuai kebutuhan user dengan tujuan
untuk membantu dalam analisis koleksi pengamatan perilaku, secara umum definisi
data-mining dapat diartikan sebagai berikut
- Proses penemuan pola yang menarik dari data yang tersimpan dalam jumlah besar.
- Ekstraksi dari suatu informasi yang berguna atau menarik (non-trivial, implisit, sebefumnya belum diketahui potensial kegunaannya) pola atau pengetahuan dari data yang disimpan dalam jumfah besar.
- Ekplorasi dari analisa secara otomatis atau semiotomatis terhadap data-data dalam jumlah besar untuk mencari pola dan aturan yang berarti.
Alasan utama mengapa data mining sangat menarik
perhatian industri informasi dalam beberapa tahun belakangan ini adalah karena
tersedianya data dalam jumlah yang besar dan semakin besarnya kebutuhan untuk
mengubah data tersebut menjadi informasi dan pengetahuan yang berguna karena
sesuai fokus bidang ilmu ini yaitu melakukan kegiatan mengekstraksi atau
menambang pengetahuan dari data yang berukuran/berjumlah besar, informasi
inilah yang nantinya sangat berguna untuk pengembangan. berikut
langkah-langkahnya :
- Data cleaning (untuk menghilangkan noise data yang tidak konsisten) Data integration (di mana sumber data yang terpecah dapat disatukan)
- Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke dalam database)
- Data transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat untuk menambang dengan ringkasan performa atau operasi agresi)
- Knowledge Discovery (proses esensial di mana metode yang intelejen digunakan untuk mengekstrak pola data)
- Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik)
- Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan digunakan untuk memberikan pengetahuan yang telah ditambang kepada user).
ALGORITMA DATA MINING
A.
Decision
Tree
Decision
tree adalah sebuah diagram alir yang berbentuk seperti struktur pohon yang mana
setiap internal node menyatakan pengujian terhadap suatu atribut, setiap cabang
menyatakan output dari pegujian tersebut dan leaf node menyatakan kelas–kelas
atau distribusi kelas. Node yang
paling atas disebut sebagai root node atau node akar. Sebuah root node akan
memiliki beberapa edge keluar tetapi tidak memiliki edge masuk, internal node
akan memiliki satu edge masuk dan beberapa edge keluar, sedangkan leaf node hanya
akan memiliki satu edge masuk tanpa memiliki edge keluar. Decision tree
digunakan untuk mengklasifikasikan suatu sampel data yang belum diketahui
kelasnya ke dalam kelas–kelas yang sudah ada. Decision tree merupakan metode
yang ada pada teknik klasifikasi dalam data mining.Metode pohon keputusan
mengubah fakta yang sangat besar menjadi pohon pohon keputusan yang
mempresentasikan aturan. Pohon keputusan juga berguna untuk mengeksplorasi
data, menemukan hubungan tersembunyi antara jumlah calon variable input dengan
sebuah variabel target.
Terdapat 3 jenis node
yang terdapat pada decision tree yaitu:
a) Root
node, merupakan Node paling atas, pada node ini tidak ada input dan bisa tidak
mempunyai output atau mempunyai output lebih dari satu.
b) Internal
Node, merupakan Node percabangan. Pada node ini terdapat percabangan. Pada node
ini terdapat satu input dan memiliki output mininmal dua.
c) Leaf
node atau terminalnode, merupakan Node akhir. Pada node ini terdapat satu input
dan tidak mempunyai output.
Konsep
Desicion Tree adalah mengubah data menjadi pohon keputusan (Dsicio Tree) dan
Aturan Keputusan (Rule)
Algoritma
dalam Descion Tree
Ada
banyak algoritma pada klasifikasi decision tree ini. Suatu algoritma biasanya
dikembangkan untuk meningkatkan kinerja algoritma yang sudah ada. Penentuan
algoritma yang terbaik dalam decision tree tentunya tidak bisa ditentukan
secara mutlak tetapi sangat tergantung dengan karakteristik training set-nya.
Beberapa algoritma decision tree yang cukup populer antara lain : ID3, C4.5,
dan CART.
Desicion
Tree adalah metode klasifikasi yang paling populer karena muda di
interpretasikan oleh manusia. Desicion Tree digunakan untuk pengenalan pola dan
termasuk dalam pola secara statistik.
Contoh Kasus Desicion
Tree
Faktor yang menjadi penentu
dalam pembelian cat oleh home smart adalah tingkat animo customer terhadap
produk cat yang dapat dilihat berdasarkan hasil penjualan merek cat dengan
warna cat tertentu pada home smart, jika hasil penjualan cat tersebut tinggi maka
animo customer tinggi terhadap cat tersebut. Kompetisi supplier juga menjadi
indikator dalam pembelian cat dimana persaingan supplier dalam menawarkan
produk mereka kepada home smart dengan memberikan cat dengan kualitas Super,
Medium dan standar dengan penawaran harga yang berbeda. Tingkat kompetisi
dikatakan tinggi jika hasil penjualan cat dari supplier tersebut tinggi dan banyak
diminati oleh customer. Berdasarkan analisa tersebut dapat ditentukan variabel-variabel
yang digunakan dalam penentuan pembelian cat dengan mempertimbangkan faktor di
atas yaitu : kualitas, harga, animo dan kompetisi.
Adapun Pra proses dalam
mengelompokan kualitas yaitu antara lain
klasifikasi harga cat dibagi menjadi 3 kelas yaitu :
Harga terjangkau dengan
range harga dibawah Rp 76.000, mahal dengan harga diatas Rp 150.000, dan sedang
dengan range 76.000 hingga 150.000
Setelah itu
mengklasifikaskan animo masyarakat yaitu :
Animo dikatakan rendah
jika penjualan produk Rp 500.000 hingga 5.500.000, animo dikatakan sedang jika
penjualan mencapai Rp 5.600.000 hingga 16.000.000 dan animo dikataka tinggi
jika penjualan lebih dari Rp 16.000.000
Selannjutnya adalah mengklasifikasi
kompetisi :
Kompetisi dikatakan
rendah jika penjualan Rp 10.000.000 hingga 40.000.000, Kompetisi dikatakan
sedang jika mencapai RP 41.000.000 dan kompetisi dikatakan tinggi jika mencapai
lebih dari Rp 50.000.000
B.
Naive
Bayes
Naive Bayes merupakan
sebuah pengklasifikasian probabilistik sederhana yang menghitung sekumpulan
probabilitas dengan menjumlahkan frekuensi dan kombinasi nilai dari dataset
yang diberikan. Algoritma mengunakan teorema Bayes dan mengasumsikan semua
atribut independen atau tidak saling ketergantungan yang diberikan oleh nilai
pada variabel kelas. Definisi lain mengatakan Naive Bayes merupakan
pengklasifikasian dengan metode probabilitas dan statistik yang dikemukan oleh
ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan
berdasarkan pengalaman dimasa sebelumnya. Naive Bayes didasarkan pada asumsi
penyederhanaan bahwa nilai atribut secara kondisional saling bebas jika diberikan
nilai output. Dengan kata lain, diberikan nilai output, probabilitas mengamati
secara bersama adalah produk dari probabilitas individu.
Keuntungan penggunaan
Naive Bayes adalah bahwa metode ini hanya membutuhkan jumlah data pelatihan (Training
Data) yang kecil untuk menentukan estimasi paremeter yang diperlukan dalam
proses pengklasifikasian. Naive Bayes sering bekerja jauh lebih baik dalam
kebanyakan situasi dunia nyata yang kompleks dari pada yang diharapkan
C.
Logistic
Regression
Regresi logistik (Logistic
regression)adalah bagian dari analisis regresi yang digunakan ketika variabel
dependen (respon) merupakan variabel dikotomi. Variabel dikotomi biasanya hanya
terdiri atas dua nilai (Santosa, 2007) yang mewakili kemunculan atau tidak adanya
suatu kejadian yang biasanya diberi angka 0 atau 1. Tidak seperti regresi linier biasa, regresi
logistik tidak mengasumsikan hubungan antara variabel independen dan dependen
secara linier. Ada beberapa penelitian yang menggunakan komparasi algoritma klasifikasi
untuk mengukur akurasi terhadap dataset marketing bank:
1. Could
Decision trees Improve the Classification Accuracy and Interpretability of
Loan Granting Decision? penelitian yang
dilakukan (Zurada,2010). Yang melakukan komparasi dari beberapa metode diantaranya
adalah regresi logistik(LR), jaringan saraf (NN), dasar fungsi jaringan saraf
radial (RBFNN), SVM, CBR, dan pohon keputusan (DTs). Dari semua model ternyata
tingkat klasifikasi akurasi yang mengungguli adalah Decision trees, DTs tidak hanya
mengklasifikasikan lebih baik dari model-model yang lain tapi juga memiliki
pengetahuan dalam membentuk aturan yang mudah ditafsirkan, masuk akal dalam menjelaskan
tentang alasan penolakan pinjaman.
2. Comparing
decision trees with logistic regression for credit risk analysis (Satchidananda & Simha,2006). Penelitian
ini membandingkan dua model algoritma untuk analisa resiko kredit, yaitu Pohon
Keputusan dan Regresi Logistik. Data diambil dari dua bank yang berbeda, kemudian
untuk mengelompokkan kasus positif dan negatif maka dilakukan klustering data dengan menggunakan
k-means. Hasil analisa dari masing-masing model dikomparasi dan kemudian diukur,kemudian
didapatkan bahwa algoritma pohon keputusan mempunyai tingkat akurasi yang tinggi
dibandingkan algoritma regresi logistik.
D.
Support
Vector Machine (SVM)
Support Vector Machine (SVM)
adalah suatu teknik untuk melakukan prediksi, baik dalam kasus klasifikasi
maupun regresi (Santosa, 2007). SVM memiliki prinsip dasar linier classifier yaitu
kasus klasifikasi yang secara linier dapat dipisahkan, namun SVM telah
dikembangkan agar dapat bekerja pada problem non-linier dengan memasukkan
konsep kernel pada ruang kerja berdimensi tinggi. Pada ruang berdimensi tinggi,
akan dicari hyperplane (hyperplane) yang dapat memaksimalkan jarak (margin)
antara kelas data.
Tahapan Proses KDD
1. Data Selection
- Menciptakan himpunan data target , pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan (discovery) akan dilakukan.
- Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing/ Cleaning
- Pemprosesan pendahuluan dan pembersihan data merupakan operasi dasar seperti penghapusan noise dilakukan.
- Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD.
- Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi).
- Dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.
3. Transformation
- Pencarian fitur-fitur yang berguna untuk mempresentasikan data bergantung kepada goal yang ingin dicapai.
- Merupakan proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses ini merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data
4. Data mining
- Pemilihan tugas data mining; pemilihan goal dari proses KDD misalnya klasifikasi, regresi, clustering, dll.
- Pemilihan algoritma data mining untuk pencarian (searching)
- Proses Data mining yaitu proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5. Interpretation/ Evaluation
- Penerjemahan pola-pola yang dihasilkan dari data mining.
- Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah mimengerti oleh pihak yang berkepentingan.
- Tahap ini merupakan bagian dari proses KDD yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.
Sumber :
http://journal.lppmunindra.ac.id/index.php/Faktor_Exacta/article/viewFile/740/650
http://www.sigitprabowo.id/2013/04/data-mining-tahap-tahapan-knowladge.html
http://gsbipb.com/?p=821
http://gsbipb.com/?p=821
Tidak ada komentar:
Posting Komentar