Data Mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan,  machine learning  untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban dkk. 2005). Data mining bisa disebut knowledge discovery adalah proses pengambilan pola pada data yang akan di proses lalu output tersebut berupa informasi yang sangat penting. Terdapat beberapa istilah lain yang memiliki makna sama dengan data mining, yaitu  Knowledge discovery in databases  (KDD), ekstraksi pengetahuan (knowledge extraction), Analisa data/pola (data/pattern analysis), kecerdasan bisnis (business intelligence) dan  data archaeology  dan  data dredging (Larose, 2005).

Berikut ini beberapa definisi data mining dari beberapa sumber (Larose, 2005):

  • Data mining adalah proses menemukan sesuatu yang bermakna dari suatu korelasi baru, pola dan tren yang ada dengan cara memilah-milah data berukuran besar yang disimpan dalam repositori, menggunakan teknologi pengenalan pola serta teknik matematika dan statistik.
  • Data mining adalah analisis pengamatan database untuk menemukan hubungan yang tidak terduga dan untuk meringkas data dengan cara atau metode baru yang dapat dimengerti dan bermanfaat kepada pemilik data.
  • Data mining merupakan bidang ilmu interdisipliner yang menyatukan teknik pembelajaran dari mesin (machine learning), pengenalan pola (pattern recognition), statistik, database, dan visualisasi untuk mengatasi masalah ekstraksi informasi dari basis data yang besar.
  • Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara implisit dalam suatu basis data.

Menurut larose ada beberapa proses yang dilakukan oleh data mining yaitu:

  • Deskripsi (mengidentifikasi pola yang tersembunyi secara tersembunyi dan mengubah pola menjadi aturan yang dapat dimengerti oleh para ahli)
  • Prediksi (mengklasifikasi berdasarkan perilaku yang akan diperkirakan yang akan mendatang)
  • Estimasi (seperti prediksi kecuali untuk variabel estimasi lebih kearah numerik )
  • Klasifikasi (proses menemukan model fungsi dan mendeskripsikan data ke kelas-kelas)
  • Clustering(pengelompokan data tanpa berdasarkan kelas tertentu kepada objek tersebut)
  • Asosiasi ( menemukan atribut yang muncul dalam waktu ).

Tujuan dilakukannya data mining dapat dikelompokkan menjadi dua, yaitu :

  • untuk dapat memahami lebih jauh mengenai perilaku data yang diamati, atau sering disebut sebagai deskripsi
  • untuk dapat memperkirakan kondisi yang akan terjadi di masa mendatang atau disebut Prediksi.

Tahapan Data Mining 

Tahapan yang dilakukan pada proses data mining diawali dari seleksi data dari data sumber ke data target, tahap preprocessing untuk memperbaiki kualitas data, transformasi, data mining serta tahap interpretasi dan evaluasi yang menghasilkan output berupa pengetahuan baru yang diharapkan memberikan kontribusi yang lebih baik. Secara detail dijelaskan sebagai berikut (Fayyad, 1996):

  • Data selection. Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
  • Pre-processing/cleaning. Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data.
  • Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.
  • Data mining. Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
  • Interpretation/evalution. Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.

Referensi

Turban, E, 2005,  Decision Support Systems and Intelligent Systems Edisi Bahasa Indonesia Jilid 1. Andi: Yogyakarta.

Larose, Daniel T. 2005.  Discovering Knowledge in Data : An Introduction to Data Mining. John Willey & Sons, Inc.

Ayyad, Usama. 1996.  Advances in Knowledge Discovery and Data Mining. MIT Press.

https://beyonder.asia/pengertian-fungsi-proses-dan-tahapan-data-mining/

https://www.kompasiana.com/mfirman34/5c8fb0557a6d88244e001272/pengertian-data-mining-dan-penerapannya?page=all

(MY)

Image Source: Google Image