Data Preparation merupakan fase ketiga yang paling memakan waktu dalam siklus CRISP-DM, di mana data mentah diolah menjadi himpunan data final yang siap dimasukkan ke dalam model analitik. Setelah kualitas data dipahami pada tahap sebelumnya, fase ini berfungsi sebagai jembatan teknis untuk memperbaiki kekurangan dan menyesuaikan struktur data agar optimal bagi algoritma. Fokus utama dari persiapan data adalah memastikan bahwa informasi yang digunakan benar-benar akurat, konsisten, dan relevan dengan tujuan bisnis yang telah ditetapkan. Tanpa proses persiapan yang matang, model yang dihasilkan kemungkinan besar akan memberikan hasil yang bias atau tidak stabil akibat adanya derau (noise) dalam data.

Aktivitas utama dalam fase ini mencakup dua langkah krusial, yaitu seleksi data (data selection) dan pembersihan data (data cleaning). Proses seleksi data dilakukan dengan memilih atribut atau kolom tertentu serta jumlah baris data yang paling relevan untuk menjawab permasalahan, sehingga komputasi menjadi lebih efisien dan terfokus. Setelah data terpilih, dilakukan proses pembersihan data untuk mengatasi berbagai anomali yang ditemukan. Hal ini melibatkan penanganan nilai yang hilang (missing values) melalui teknik imputasi atau penghapusan, perbaikan kesalahan input manual, serta penanganan pencilan (outliers) yang dapat mengganggu distribusi statistik. Melalui

kedua langkah ini, integritas data ditingkatkan sehingga informasi yang tersaji menjadi lebih bersih dan representatif terhadap fenomena yang diteliti.

Dalam data preparation sendiri memiliki proses yang melibatkan dua langkah utama yang sangat penting, yaitu seleksi data keuangan dan pembersihan data transaksi. Dalam seleksi data, dilakukan pemfilteran terhadap periode akuntansi yang relevan, pemilihan pusat biaya (cost centers) tertentu, atau pemisahan antara transaksi operasional dan non-operasional untuk menjaga relevansi analisis. Selanjutnya, dalam tahapan pembersihan data, dilakukan koreksi terhadap entri jurnal yang tidak seimbang, penanganan nilai yang hilang pada kolom referensi faktur, serta normalisasi format mata uang atau satuan unit. Proses ini juga mencakup identifikasi dan penanganan data ganda (duplicate entries) yang sering terjadi akibat kesalahan sistem atau human error saat penginputan jurnal manual, sehingga integritas buku besar tetap terjaga.

Sebagai penutup, tahap persiapan data merupakan penentu kualitas akhir dari seluruh proyek data mining. Hasil dari seleksi dan pembersihan data ini akan menghasilkan final dataset yang memiliki tingkat kepercayaan tinggi bagi proses pemodelan selanjutnya. Ketelitian dalam menyaring variabel dan memperbaiki kesalahan data secara langsung berkorelasi dengan akurasi prediksi yang akan dihasilkan. Oleh karena itu, dokumentasi mengenai setiap perubahan yang dilakukan pada data mentah menjadi sangat penting guna menjaga transparansi dan keterulangan (reproducibility) analisis di masa mendatang.