Categories

Lesson 6

Blog Archive

Follower

Statistik

Tugas-tugas dalam Data mining



Tugas-tugas dalam data mining secara umum dibagi ke dalam dua kategori utama:
- Prediktif. Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut tertentu berdasarkan pada nilai dari atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai target atau variabel tak bebas, sedangkan atribut-atribut yang digunakan untuk membuat prediksi dikenal sebagai explanatory atau variabel bebas.
- Deskriptif. Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola (korelasi, trend, cluster, trayektori, dan anomali) yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif sering merupakan penyelidikan dan seringkali memerlukan teknik postprocessing untuk validasi dan penjelasan hasil.
Berikut adalah tugas-tugas dalam data mining:
- Analisis Asosiasi (Korelasi dan kausalitas)
Analisis asosiasi adalah pencarian aturan-aturan asosiasi yang menunjukkan kondisi-kondisi nilai atribut yang sering terjadi bersama-sama dalam sekumpulan data. Analisis asosiasi sering digunakan untuk menganalisa market basket dan data transaksi.
Aturan-aturan asosiasi memiliki bentuk X ⇒ Y, bahwa A1 ∧ A2 ∧ … ∧ Am → B1 ∧ B2 ∧ … ∧ Bn, dimana Ai (untuk i = 1, 2, …, m) dan Bj (untuk j = 1, 2, …,
Modul Kuliah Data Mining 7

n) adalah pasangan-pasangan nilai atribut. Aturan asosiasi X ⇒ Y diinterpretasikan sebagai tuple-tuple basis data yang memenuhi kondisi-kondisi dalam X juga mungkin memenuhi kondisi dalam Y.
Contoh dari aturan asosiasi adalah
􀂃 age(X, “20..29”) ^ income(X, “20..29K”) ⇒ buys(X, “PC”) [support = 2%, confidence = 60%]
􀂃 contains(T, “computer”) ⇒ contains(x, “software”) [1%, 75%]
- Klasifikasi dan Prediksi
Klasifikasi adalah proses menemukan model (fungsi) yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan tujuan agar model yang diperoleh dapat digunakan untuk memprediksikan kelas atau objek yang memiliki label kelas tidak diketahui. Model yang turunkan didasarkan pada analisis dari training data (yaitu objek data yang memiliki label kelas yang diketahui). Model yang diturunkan dapat direpresentasikan dalam berbagai bentuk seperti aturan IF-THEN klasifikasi, pohon keputusan, formula matematika atau jaringan syarf tiruan.
Dalam banyak kasus, pengguna ingin memprediksikan nilai-nilai data yang tidak tersedia atau hilang (bukan label dari kelas). Dalam kasus ini biasanya nilai data yang akan diprediksi merupakan data numeric. Kasus ini seringkali dirujuk sebagai prediksi. Di samping itu, prediksi lebih menekankan pada identifikasi trend dari distribusi berdasarkan pada data yang tersedia.
- Analisis Cluster
Tidak seperti klasifikasi dan prediksi, yang menganalisis objek data yang diberi label kelas, clustering menganalisis objek data dimana label kelas tidak diketahui. Clustering dapat digunakan untuk menentukan label kelas tidak diketahui dengan cara mengelompokkan data untuk membentuk kelas baru. Sebabai contoh clustering rumah untuk menemukan pola distribusinya. Prinsip dalam clustering adalah memaksimumkan kemiripan intra-class dan meminimumkan kemiripan interclass.
- Analisis Outlier
Outlier merupakan objek data yang tidak mengikuti perilaku umum dari data. Outlier dapat dianggap sebagai noise atau pengecualian. Analisis data outlier dinamakan outlier mining. Teknik ini berguna dalam fraud detection dan rare events analysis.
- Analisis Trend dan Evolusi
Analisis evolusi data menjelaskan dan memodelkan trend dari objek yang memiliki perilaku yang berubah setiap waktu. Teknik ini dapat meliputi karakterisasi, diskriminasi, asosiasi, klasifikasi, atau clustering dari data yang berkaitan dengan waktu.
Data mining merupakan bidang interdisplin. Disiplin ilmu ini banyak dipengaruhi oleh disiplin sistem basis data, statistika, ilmu informasi, mesin Modul Kuliah Data Mining 8
pembelajaran, dan visualisasi. Sistem data mining dapat diklasifsikasikan berdasarkan beberapa kategori, yaitu
- Klasifikasi berdasarkan data yang akan di-mine seperti relational, transactional, object-oriented, object-relational, spatial, time-series, text, multi-media dan www.
- Klasifikasi berdasarkan pengetahuan yang akan di-mine, yaitu berdasarkan fungsionalitas data mining seperti karakterisasi, diskriminasi, asosiasi, klasifikasi, clustering, analisis outlier dan analisis evolusi. Sistem data mining yang komprehensif biasanya menyediakan beberapa fungsi-fungsi data mining.
- Klasifikasi berdasarkan teknik yang akan digunakan seperti database-oriented, data warehouse (OLAP), machine learning, Statistics, Visualization dan neural network.
- Klasifikasi berdasarkan aplikasi yang diadaptasi, sebagai contoh system data mining untuk keuangan, telekomunikasi, DNA, dan e-mail.
Penutup

0 komentar:

Posting Komentar