Data Understanding merupakan fase kedua dalam metodologi CRISP-DM yang berfokus pada pengenalan mendalam terhadap aset data yang tersedia. Setelah tujuan bisnis ditetapkan pada tahap awal, langkah ini menjadi krusial untuk memastikan bahwa data yang dimiliki memang layak dan cukup untuk menjawab tantangan tersebut. Fase ini melibatkan eksplorasi awal guna menemukan wawasan pertama, mendeteksi masalah kualitas, atau mengidentifikasi himpunan bagian yang menarik untuk membentuk hipotesis tersembunyi. Keberhasilan pada tahap ini sangat menentukan apakah proses dapat berlanjut ke persiapan data atau justru memerlukan revisi pada pemahaman bisnis jika data yang dibutuhkan ternyata tidak tersedia.

Aktivitas dalam tahapan ini dilakukan secara terstruktur melalui empat langkah utama yang mendetail. Pertama, dilakukan pengumpulan data awal/data acquisition (initial data collection), di mana data diambil dari berbagai sumber yang relevan seperti basis data, laporan, atau berkas eksternal. Kedua, dilakukan deskripsi data untuk memeriksa format, jumlah baris, serta identitas setiap variabel yang ada. Ketiga adalah eksplorasi data (data exploration), yaitu proses analisis statistik sederhana dan visualisasi untuk memahami distribusi data serta hubungan antar variabel. Terakhir, dilakukan verifikasi kualitas data, yang bertujuan untuk mengidentifikasi adanya data yang hilang (missing values), pencilan (outliers), atau inkonsistensi informasi. Langkah-langkah ini

memastikan bahwa setiap anomali dipahami sebelum data masuk ke tahap pemrosesan yang lebih kompleks. Pada data understanding sendiri merupakan Proses yang dilakukan melalui empat langkah teknis yang disesuaikan dengan standar pelaporan keuangan. Pertama, dilakukan pengumpulan data awal dari berbagai sumber, seperti jurnal transaksi, neraca saldo, hingga data master pemasok dan pelanggan. Kedua, dilakukan deskripsi data untuk memetakan atribut keuangan, seperti kode akun, tanggal valuta, pusat biaya (cost center), dan nilai nominal mata uang. Ketiga adalah eksplorasi data keuangan, di mana teknik statistik digunakan untuk melihat tren musiman pada pendapatan atau pola pengeluaran yang tidak biasa. Terakhir, dilakukan verifikasi kualitas data untuk mendeteksi adanya nomor faktur ganda, saldo yang tidak seimbang, atau ketidaksesuaian antara modul pendukung dengan buku besar utama.

Sebagai penutup, fase Data Understanding berfungsi sebagai filter keamanan yang mencegah terjadinya kesalahan analisis akibat data yang cacat atau tidak relevan. Hasil akhir dari tahap ini adalah laporan komprehensif mengenai kondisi data yang akan menentukan strategi pada fase Data Preparation. Dengan memahami karakteristik data secara mendalam, tim proyek dapat memitigasi risiko kegagalan model dan menjamin bahwa hasil pengolahan data nantinya benar-benar mencerminkan realitas yang ada di lapangan. Keselarasan antara data yang tersedia dengan kebutuhan teknis menjadi kunci utama dalam membangun solusi analitik yang kredibel.