Mengidentifikasi Non Extreme Data Error
Non-extreme data errors adalah kesalahan pada data yang nilainya tidak berada di ujung spektrum (bukan nilai yang sangat besar atau sangat kecil), sehingga tidak terdeteksi sebagai pencilan (outlier) melalui analisis variabel tunggal. Berbeda dengan kesalahan ekstrem yang mudah terlihat dalam distribusi data mandiri, kesalahan non-ekstrem sering kali bersembunyi di dalam rentang nilai yang normal. Kesalahan jenis ini baru dapat diidentifikasi ketika kita melihat hubungan antara dua variabel atau lebih—seperti pada grafik sebar (scatter chart)—di mana suatu titik data tidak mengikuti pola atau korelasi logis yang seharusnya terjadi, meskipun angka tersebut secara individu terlihat wajar.
identifikasi non-extreme data errors memerlukan pendekatan yang lebih mendalam daripada sekadar mencari angka “aneh” secara mandiri.
Berikut adalah langkah-langkah sistematis untuk mengidentifikasinya:
1. Gunakan Analisis Multivariat (Bivariate Analysis)
Cara paling efektif adalah dengan membandingkan dua variabel yang memiliki hubungan logis atau alami.
- Scatter Chart (Grafik Sebar): Plotkan dua variabel pada sumbu X dan Y. Dalam contoh gambar, variabelnya adalah Miles (Jarak Tempuh) dan Tread Depth (Kedalaman Alur Ban).
- Cari Anomali Hubungan: Perhatikan titik-titik yang jatuh di luar pola umum. Jika mayoritas data membentuk pola linear atau melengkung (seperti di dalam elips merah pada gambar), maka titik yang berada jauh di luar kelompok tersebut patut dicurigai sebagai error, meskipun nilai individunya tampak normal.
2. Pahami Korelasi Logis Antar Variabel
Identifikasi ini sangat bergantung pada pengetahuan domain (konteks data). Anda harus memahami bagaimana seharusnya kedua variabel tersebut berinteraksi:
- Korelasi Negatif: Seperti contoh ban, semakin tinggi satu variabel, variabel lain seharusnya turun. Titik data yang menunjukkan “Jarak Tempuh Tinggi” sekaligus “Alur Ban Tebal” adalah non-extreme error.
- Korelasi Positif: Misalnya antara “Luas Bangunan” dan “Harga Rumah”. Jika ada rumah kecil dengan harga sangat tinggi (namun masih dalam range harga pasar umum), itu bisa jadi indikasi kesalahan input data.
3. Visualisasi dengan “Confidence Ellipse”
Seperti yang ditunjukkan oleh elips merah pada gambar:
- Elips ini merepresentasikan batas wilayah di mana sebagian besar data (misalnya 95%) seharusnya berada berdasarkan korelasi yang ada.
- Titik-titik yang berada di luar elips ini disebut sebagai Influential Observations. Peneliti harus memeriksa ulang titik-titik ini untuk memastikan apakah itu memang data unik yang valid atau kesalahan entri data (seperti salah ketik angka).
4. Pemeriksaan Ulang Sumber Data (Cross-Validation)
Setelah titik-titik mencurigakan diidentifikasi melalui grafik:
- Lakukan pengecekan kembali ke catatan asli atau dokumen sumber.
- Tanyakan: “Apakah mungkin ban ini baru saja diganti?” (Jika ya, datanya valid). “Atau apakah petugas salah memasukkan angka 9.7 yang seharusnya 0.7?” (Jika ya, ini adalah non-extreme error).
Sebagai simpulan, integritas hasil analisis sangat bergantung pada kualitas data yang digunakan sejak awal. Mengidentifikasi kesalahan data, baik yang bersifat ekstrem maupun non-ekstrem, bukan sekadar langkah teknis dalam pembersihan data, melainkan bagian krusial dalam menjaga akurasi pengambilan keputusan. Dengan memanfaatkan visualisasi yang tepat dan pemahaman konteks yang mendalam, kita dapat meminimalisir risiko anomali yang menyesatkan dan memastikan bahwa informasi yang dihasilkan benar-benar mencerminkan realitas yang ada.
Comments :