Data Mining
Pengertian data mining
Data mining adalah proses yang
menggunakan teknik statistik, matematika, kecerdasan buatan, machine
learning untuk mengidentifikasi informasi dan pengetahuan dari database. Data
mining juga disebut sebagai Knowledge discovery in databases (KDD), ekstrasi
pengetahuan (knowledge extraction), analisan data/pola (data/pattern analysis),
kecerdasan bisnis (business intelligence), data archeology dan data dredging.
Data mining biasanya
digunakan untuk :
- Prediksi trend dan sifat-sifat bisnis, data mining mengotomatisasi proses pencarian informasi pemprediksi di dalam basis data yang besar.
- Penemuan pola-pola yang tidak diketahui sebelumnya, dimana data mining menyapu basis data, kemudian mengidentifikasi pola-pola yang sebelumnya tersembunyi dalam satu sapuan.
- Data mining berguna untuk membuat keputusan yang kritis, terutama dalam strategi.
Fungsi data mining
Terdapat empat fungsi dasar dari data mining,
yaitu :
- Fungsi Prediksi (prediction). Proses untuk menemukan pola dari data dengan menggunakan beberapa variabel untuk memprediksikan variabel lain yang tidak diketahui jenis atau nilainya.
- Fungsi Deskripsi (description). Proses untuk menemukan suatu karakteristik penting dari data dalam suatu basis data.
- Fungsi Klasifikasi (classification). Suatu proses dalam menemukan model atau fungsi untuk menggambarkan class atau konsep dari suatu data. Proses yang digunakan untuk mendeskripsikan data penting serta dapat meramalkan kecenderungan data pada masa depan.
- Fungsi Asosiasi (association). Proses ini digunakan untuk menemukan suatu hubungan yang terdapat pada nilai atribut dari sekumpulan data.
Proses data mining
a. Deskripsi
Deskripsi bertujuan untuk mengidentifikasi pola yang muncul secara
berulang pada suatu data dan mengubah pola tersebut menjadi aturan dan kriteria
yang dapat mudah dimengerti oleh para ahli pada domain aplikasinya. Aturan yang
dihasilkan harus mudah dimengerti agar dapat dengan efektif meningkatkan
tingkat pengetahuan (knowledge) pada sistem. Tugas deskriptif merupakan tugas
data mining yang sering dibutuhkan pada teknik postprocessing untuk melakukan
validasi dan menjelaskan hasil dari proses data mining. Postprocessing
merupakan proses yang digunakan untuk memastikan hanya hasil yang valid dan
berguna yang dapat digunakan oleh pihak yang berkepentingan.
b. Prediksi
Prediksi yaitu data
diklasifikasikan berdasarkan perilaku atau nilai yang diperkirakan pada masa
yang akan datang. Contoh dari tugas prediksi misalnya untuk memprediksikan
adanya pengurangan jumlah pelanggan dalam waktu dekat dan prediksi harga saham
dalam tiga bulan yang akan datang.
c. Estimasi
Estimasi hampir sama dengan prediksi, kecuali variabel target estimasi
lebih ke arah numerik dari pada ke arah kategori. Model dibangun menggunakan
record lengkap yang menyediakan nilai dari variabel target sebagai nilai
prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel
target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan
dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan
umur pasien, jenis kelamin, berat badan, dan level sodium darah. Hubungan
antara tekanan darah sistolik dan nilai variabel prediksi dalam proses
pembelajaran akan menghasilkan model estimasi.
d. Klasifikasi
Klasifikasi merupakan proses menemukan sebuah model atau fungsi yang
mendeskripsikan dan membedakan data ke dalam kelas-kelas. Klasifikasi
melibatkan proses pemeriksaan karakteristik dari objek dan memasukkan objek ke
dalam salah satu kelas yang sudah didefinisikan sebelumnya.
e. Clustering
Clustering merupakan pengelompokan data tanpa
berdasarkan kelas data tertentu ke dalam kelas objek yang sama. Sebuah kluster
adalah kumpulan record yang memiliki kemiripan suatu dengan yang lainnya dan
memiliki ketidakmiripan dengan record dalam kluster lain. Tujuannya adalah untuk
menghasilkan pengelompokan objek yang mirip satu sama lain dalam
kelompok-kelompok. Semakin besar kemiripan objek dalam suatu cluster dan
semakin besar perbedaan tiap cluster maka kualitas analisis cluster semakin
baik.
f. Asosisai
Tugas
asosiasi dalam data mining adalah menemukan atribut yang muncul dalam suatu
waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja (market
basket analisys). Tugas asosiasi berusaha untuk mengungkap aturan untuk
mengukur hubungan antara dua atau lebih atribut.
Tahapan Data Mining
Tahapan yang dilakukan pada proses data mining
diawali dari seleksi data dari data sumber ke data target, tahap preprocessing
untuk memperbaiki kualitas data, transformasi, data mining serta tahap
interpretasi dan evaluasi yang menghasilkan output berupa pengetahuan baru yang
diharapkan memberikan kontribusi yang lebih baik. Secara detail dijelaskan
sebagai berikut (Fayyad, 1996):
1. Data selection
Pemilihan (seleksi) data
dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian
informasi dalam KDD dimulai. Data hasil seleksi yang digunakan untuk proses
data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing / cleaning
Sebelum proses data mining dapat dilaksanakan,
perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses
cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang
inkonsisten, dan memperbaiki kesalahan pada data.
3. Transformation
Coding
adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut
sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses
kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari
dalam basis data.
4. Data mining
Data mining
adalah proses mencari pola atau informasi menarik dalam data terpilih dengan
menggunakan teknik atau metode tertentu dan harus ada pemilihan metode atau
algoritma yang tepat karena bergantung pada tujuan dan proses KDD secara
keseluruhan.
5. Interpretation / evalution
Tahap ini
merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini
mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan
dengan fakta atau hipotesis yang ada sebelumnya.
Data diatas menggambarkan bentuk data satu item, yang terdiri atas attribute item sebagai nama item jenis semua produk elektronik yang ada didalam transaksi, support yaitu jumlah setiap item yang ada disemua transaksi, sedangkan support (%) adalah presentasi jumlah item yang ada didalam transkasi, yang didapat dari jumlah item dibagi jumlah semua transaksi di kali seratus persen. Tabel diatas adalah item data yang memenuhi support minimal, nilai support minimal sama dengan 50 persen (%.
Data diatas adalah pola kombinasi dua itemset yang memenuhi support minimal, terlihat data kombinasi jenis ATK buku, pensil dan pensil,penghapus memiliki support terbanyak, itu menandakan bahwa kombinasi dua itemsets paling banyak dalam transaksi.
Tabel 4 Daftar Items Yang Memenuhi Untuk Pembentukan Asosiasi.Proses perhitungan support kombinasi 3 itemset, tidak adanya ditemukan support yang mencapai support minimum 50% maka proses perhitungan item berhenti, maka 2 kombinasi yang memenuhi untuk pembentukan asosiasi.
4. Pembentukan Aturan Assosiation Rules
Salah Satu Contoh Implementasi
1. Analisis Data
Tabel 1 Data Transaksi Penkjualan Produk ATK
Dengan studi kasus pada Toko X dapat dilakukan analisa prediksi terhadap data khusus data penjualan (data produk ATK keluar) dengan salah satu tujuanya adalah untuk menemukan pola kombinasi penjualan produk ATK dan hubungan antar item jenis produk ATK dalam transaksi. Berikut ini adalah tabel 1 beberapa sampel data yang akan dijadikan sampel untuk analisis dan juga untuk pengujian.
Algoritma apriori bertujuan untuk menemukan semua aturan apriori yang memenuhi syarat minimum support (nilai Penunjang), yaitu kombinasi tiap item dalam database. Dan syarat minimum confidence (nilai kepastian), yaitu kuatnya hubungan antar item dalam aturan asosiasi.
2. Penerapan Algoritama Apriori
Dalam menganalisa kebutuhan dengan mengunakan algoritma apriori dapat diketahui pola frekwensi tinggi jenis barang yang paling sering dilakukan transaksi penjualan yang paling banyak atau paling sering dibeli oleh konsumen.
Pembuatan Format Tabular
Format tabular data transaksi bulanan, bila dibentuk akan tampak seperti tabel berikut ini:
Tabel 2 Format Data Tabular item Data Transaksi
3. Pola frakwensi Tinggi
Sebelum dilakukan pencarian pola dari data transaksi terlebih dulu, dicari semua nama jenis item produk elektronik yang ada didalamt ransaksi seperti sekaligus menentukan support per item jenis produk elektronik dimana tahap ini mencari kombinasi item yang memenuhi syarat minimum dari nilai support dalam database.
a. Pembentukan Itemset
Berikut ini adalah penyelesaian dengan contoh kasus berdasarkan data yang sudah disediakan.
Proses pembentukan C1 atau disebut dengan 1 itemset dengan
jumlah minimum support = 50%
Dengan rumus sebagai berikut:
Dengan rumus sebagai berikut:
Tabel 3 Tabel Kandidat item pertama
Data diatas menggambarkan bentuk data satu item, yang terdiri atas attribute item sebagai nama item jenis semua produk elektronik yang ada didalam transaksi, support yaitu jumlah setiap item yang ada disemua transaksi, sedangkan support (%) adalah presentasi jumlah item yang ada didalam transkasi, yang didapat dari jumlah item dibagi jumlah semua transaksi di kali seratus persen. Tabel diatas adalah item data yang memenuhi support minimal, nilai support minimal sama dengan 50 persen (%.
Kemudian bandingakan dengan suport minimum dibawah ini.
Tabel 4 Daftar Items Yang Mencapai Support Minimal
Data diatas adalah pola kombinasi dua itemset yang memenuhi support minimal, terlihat data kombinasi jenis ATK buku, pensil dan pensil,penghapus memiliki support terbanyak, itu menandakan bahwa kombinasi dua itemsets paling banyak dalam transaksi.
b. Pembentukan Pola Kombinasi TigaItemsets
Kandidat kombinasi 3 itemset diambil dari kandidat dua itemset yang mencapai atau melebihi support minimal.
Tabel 5 Pola Kombinasi Tiga Itemset Yang Tidak Memenuhi Support Minimal
Tabel 4 Daftar Items Yang Memenuhi Untuk Pembentukan Asosiasi.Proses perhitungan support kombinasi 3 itemset, tidak adanya ditemukan support yang mencapai support minimum 50% maka proses perhitungan item berhenti, maka 2 kombinasi yang memenuhi untuk pembentukan asosiasi.
4. Pembentukan Aturan Assosiation Rules
Setelah semua pola frekuensi tinggi ditemukan, barulah dicari aturan asosiasi yang memenuhi syarat minimum untuk confidence dengan menghitung confidence aturan asosiatif A→B.
Minimal Confidence=75%
Nilai Confidence dari aturan A→B diperoleh dengan rumus berikut: ∑ Transaksi mengandung A dan B
Confidence = P (B\A)
Dari kombinasi 2 itemset yang telah ditemukan, dapat dilihat besarnya nilai support, dan confidence dari calon aturan asosiasi seperti tampak pada tabel dibawah ini:
Tabel 6 Aturan Asosiasi
Association rules dari tabel diatas merupakan aturan yang terbentuk dari pola kombinasi dua item, tabel diatas terbagi atas beberapa bagian rules adalah aturan yang dihasilkan dari pola kombinasi dua itemsets. support adalah nilai support antara kedua items, sedangkan confidence adalah nilai yang didapat dari support dua itemsets dibagi oleh nilai support antecedent di kalikan seratus persen.
5. Algoritma
Secara umum algoritma diartikan sebagai kumpulan aturan-aturan, sederetan operasi-operasi atau langkah langkah untuk menyelesaikan suatu permasalahan. Didalam dunia teknologi informasi yang berhubungan dengan sistem komputer, pembelajaran algoritma dilakukan dengan cara mengolah data.
Algoritma yang digunakan
1. Algoritma perhitungan support
2. Algoritma perhitungan confidence
Daftar Pustaka
- Turban, E, 2005, Decision Support Systems and Intelligent
Systems Edisi Bahasa Indonesia Jilid 1. Andi: Yogyakarta.
- Larose, Daniel T. 2005. Discovering Knowledge in Data : An
Introduction to Data Mining. John Willey & Sons, Inc.
- ayyad, Usama. 1996. Advances in Knowledge Discovery and Data Mining. MIT Press.
- https://www.kajianpustaka.com/2017/09/data-mining.html
- http://dataminingdanapriori.blogspot.com/
Komentar
Posting Komentar