Membersihkan & Menyiapkan Data (Data Cleaning)
Digital Skills 10 menit Level 1 10 XP

“Data itu ibarat bahan makanan. Sebelum dimasak, harus dicuci dulu. Kalau kotor, hasil masakan bisa bikin sakit perut—eh, salah analisis maksudnya 😅.”

Kenapa Harus Membersihkan Data?

Analoginya Begini :

Kamu dikasih file Excel 1000 baris data transaksi dari toko online. Tapi...

  • Ada kolom harga yang kosong

  • Ada pelanggan yang nulis nama “budi” dan “BUDI” (padahal sama)

  • Ada tanggal transaksi “2025-13-40” (loh, tanggal 40?)

  • Ada kolom alamat tapi isinya “-”, “gak ada”, atau “...”

Kalau langsung dianalisis? Bisa salah semua.
Makanya data harus dibersihin dulu, biar hasilnya valid.


Masalah Umum dalam Data Mentah

Berikut ini masalah yang paling sering ditemui:

MasalahContohSolusi Umum
Data KosongKolom umur ada yang kosongHapus, isi rata-rata, atau default
DuplikatBaris data yang sama persis lebih dari sekaliHapus baris duplikat
Format Tidak KonsistenNama ditulis “Andi”, “andi”, “ANDI”Ubah jadi satu format (misal semua huruf kapital)
OutlierUsia pelanggan “260 tahun” 😅Tinjau, koreksi, atau buang
TypoJkarta” → harusnya “Jakarta”Koreksi manual atau pakai fungsi

Langkah-Langkah Membersihkan Data (Step-by-Step)

🛠️ Langkah 1: Cek Data Kosong

Gunakan fitur Filter di Excel atau isnull() di Python untuk lihat bagian mana yang kosong.

🛠️ Langkah 2: Hapus/Menangani Duplikat

Di Excel: pilih data > "Remove Duplicates"
Di Python (pandas):

df.drop_duplicates(inplace=True)

🛠️ Langkah 3: Normalisasi Format

Contoh: ubah semua teks jadi huruf kecil

df['nama'] = df['nama'].str.lower()

🛠️ Langkah 4: Validasi Nilai Data

Cek apakah angka masuk akal. Misal: umur antara 0–120.

🛠️ Langkah 5: Perbaiki Typo

Manual di Excel, atau pakai pustaka fuzzywuzzy di Python untuk deteksi kemiripan teks.


Tools yang Bisa Digunakan

🔧 Excel / Google Sheets

  • Cocok untuk pemula

  • Gunakan fungsi: IF, CLEAN, TRIM, FIND, dan fitur filter/sort

🧪 Python + Pandas

  • Cocok untuk data yang lebih besar dan proses otomatis

  • Powerful untuk menghapus data duplikat, membersihkan teks, validasi numerik, dll

📊 OpenRefine

  • Tool gratis khusus untuk data cleaning

  • Bisa digunakan untuk mengenali pola kesalahan dan memperbaiki data massal


Studi Kasus Mini – “Data Kacau Toko Online”

🗃️ Dataset Awal (10 baris sampel):

NamaProdukJumlahTanggalKota
BudiMouse22025-01-10Jkarta
budiMouse22025-01-10Jakarta
SariKeyboard2025-01-12Bandung
SariKeyboard2025-01-12Bandung
RinaLaptop12025-13-01Bandung
RinaLaptop12025-01-13Bnadung

🔎 Apa yang bisa dibersihkan?

  1. Budi” dan “budi” harus disamakan

  2. Data duplikat Sari harus dihapus

  3. Tanggal “2025-13-01” gak valid → harus dikoreksi

  4. Jkarta” dan “Bnadung” typo → ubah jadi “Jakarta” dan “Bandung”

  5. Kolom “Jumlah” kosong → isi dengan default atau rata-rata


    Data analysis bukan soal software canggih. Tapi soal ketelitian, logika, dan keinginan buat bikin data itu ‘bicara’ dengan benar.”