Membersihkan & Menyiapkan Data (Data Cleaning)
Digital Skills
10 menit
Level 1
10 XP
“Data itu ibarat bahan makanan. Sebelum dimasak, harus dicuci dulu. Kalau kotor, hasil masakan bisa bikin sakit perut—eh, salah analisis maksudnya 😅.”
Kenapa Harus Membersihkan Data?
Analoginya Begini :
Kamu dikasih file Excel 1000 baris data transaksi dari toko online. Tapi...
-
Ada kolom harga yang kosong
-
Ada pelanggan yang nulis nama “budi” dan “BUDI” (padahal sama)
-
Ada tanggal transaksi “2025-13-40” (loh, tanggal 40?)
-
Ada kolom alamat tapi isinya “-”, “gak ada”, atau “...”
Kalau langsung dianalisis? Bisa salah semua.
Makanya data harus dibersihin dulu, biar hasilnya valid.
Masalah Umum dalam Data Mentah
Berikut ini masalah yang paling sering ditemui:
Masalah | Contoh | Solusi Umum |
---|---|---|
Data Kosong | Kolom umur ada yang kosong | Hapus, isi rata-rata, atau default |
Duplikat | Baris data yang sama persis lebih dari sekali | Hapus baris duplikat |
Format Tidak Konsisten | Nama ditulis “Andi”, “andi”, “ANDI” | Ubah jadi satu format (misal semua huruf kapital) |
Outlier | Usia pelanggan “260 tahun” 😅 | Tinjau, koreksi, atau buang |
Typo | “Jkarta” → harusnya “Jakarta” | Koreksi manual atau pakai fungsi |
Langkah-Langkah Membersihkan Data (Step-by-Step)
🛠️ Langkah 1: Cek Data Kosong
Gunakan fitur
Filter
di Excel atauisnull()
di Python untuk lihat bagian mana yang kosong.
🛠️ Langkah 2: Hapus/Menangani Duplikat
Di Excel: pilih data > "Remove Duplicates"
Di Python (pandas):
🛠️ Langkah 3: Normalisasi Format
Contoh: ubah semua teks jadi huruf kecil
🛠️ Langkah 4: Validasi Nilai Data
Cek apakah angka masuk akal. Misal: umur antara 0–120.
🛠️ Langkah 5: Perbaiki Typo
Manual di Excel, atau pakai pustaka
fuzzywuzzy
di Python untuk deteksi kemiripan teks.
Tools yang Bisa Digunakan
🔧 Excel / Google Sheets
-
Cocok untuk pemula
-
Gunakan fungsi:
IF
,CLEAN
,TRIM
,FIND
, dan fitur filter/sort
🧪 Python + Pandas
-
Cocok untuk data yang lebih besar dan proses otomatis
-
Powerful untuk menghapus data duplikat, membersihkan teks, validasi numerik, dll
📊 OpenRefine
-
Tool gratis khusus untuk data cleaning
-
Bisa digunakan untuk mengenali pola kesalahan dan memperbaiki data massal
Studi Kasus Mini – “Data Kacau Toko Online”
🗃️ Dataset Awal (10 baris sampel):
Nama | Produk | Jumlah | Tanggal | Kota |
---|---|---|---|---|
Budi | Mouse | 2 | 2025-01-10 | Jkarta |
budi | Mouse | 2 | 2025-01-10 | Jakarta |
Sari | Keyboard | 2025-01-12 | Bandung | |
Sari | Keyboard | 2025-01-12 | Bandung | |
Rina | Laptop | 1 | 2025-13-01 | Bandung |
Rina | Laptop | 1 | 2025-01-13 | Bnadung |
-
“Budi” dan “budi” harus disamakan
-
Data duplikat Sari harus dihapus
-
Tanggal “2025-13-01” gak valid → harus dikoreksi
-
“Jkarta” dan “Bnadung” typo → ubah jadi “Jakarta” dan “Bandung”
-
Kolom “Jumlah” kosong → isi dengan default atau rata-rata
“Data analysis bukan soal software canggih. Tapi soal ketelitian, logika, dan keinginan buat bikin data itu ‘bicara’ dengan benar.”