Secara umumnya tugas prapemprosesan data boleh dikategorikan kepada empat iaitu pembersihan data, integrasi data, transformasi data dan pengurangan data. Proses-proses ini boleh dilaksanakan secara berulang dan tidak semestinya dilaksanakan menuruti jujukan langkah tertentu. Bahkan bukan kesemua proses yang dihuraikan dalam subseksyen di bawah perlu dilaksanakan, sebaliknya ia bergantung kepada set data yang ingin diproses.
Pembersihan data
Merupakan proses yang dilaksanakan bagi menguruskan nilai yang hilang (missing value), melicinkan data hingar (noise data), mengenal pasti atau membuang data asing (outlier) serta menyelesaikan masalah data yang tidak konsisten.
- Nilai hilang - dua kaedah bagi menangani isu nilai hilang iaitu melalui penyingkiran atau dengan mengisi nilai hilang dengan nilai baharu sama ada min, mod, median, pemalar global atau berdasarkan model ramalan.
- Data asing - data asing ditakrifkan sebagai data yang sah tetapi mempunyai pola yang jauh berbeza berbanding data yang lain. Dalam model tertentu seperti pengesanan pencerobohan, data asing merupakan ciri penting yang menjadi perhatian utama. Namun dalam sebahagian model yang lain pula kewujudan data asing mampu memberi pengaruh negatif terhadap prestasi model. Data asing boleh dikenal pasti melalui kaedah univariat iaitu berdasarkan fitur tunggal atau pun kaedah multivariat yang berdasarkan gabungan fitur. Sama seperti nilai hilang, data asing yang dikenal pasti kemudiannya boleh disingkirkan atau digantikan dengan nilai baharu.
- Data hingar dan data tidak konsisten - merupakan dua jenis data yang tercemar dan mengandungi ralat. Antara puncanya adalah ralat semasa proses kutipan, kemasukan atau penghantaran data. Kaedah yang boleh digunakan untuk mengatasi masalah data hingar dan data tidak konsisten adalah melalui penyingkiran data atau melaksanakan proses pelicinan data.
Transformasi data
Transformasi data merupakan satu proses menukar, meringkas atau menskala data kepada suatu bentuk atau perwakilan tertentu yang bersesuaian. Antara kaedah yang ada adalah pendiskretan, penormalan dan generalisasi data.
- Pendiskretan - merupakan satu keadaan di mana data-data dibahagikan kepada beberapa kumpulan yang tertentu mengikut saiz atau frekuensi yang tertentu. Penentuan kumpulan perlu dilakukan dengan teliti bagi mengelakkan kehilangan maklumat berguna. Pendiskredan yang baik dapat menemukan pola pada suatu fitur. Antara fitur yang sesuai dilaksanakan proses pendiskredan adalah fitur nominal dengan nilai yang terlalu bervariasi dan data numerikal yang hendak ditukar ke bentuk nominal.
- Penormalan atau turut dikenali sebagai penskalaan fitur - merujuk kepada satu proses menskalarkan nilai numerik ke satu julat tertentu contohnya -1 hingga 1 atau 0 hingga 1. Penyelarasan julat nilai ini penting apabila memproses fitur-fitur numerik yang mempunyai unit ukuran dan skala yang pelbagai jenis. Tanpa proses penormalan, sesetengah fungsi objektif tidak dapat berfungsi dengan baik. Proses penormalan boleh dilaksanakan menggunakan beberapa cara, antaranya Transformasi-Z dan Transformasi Min-Maks.
- Generalisasi - menggantikan data bersifat khusus dengan data yang lebih bersifat umum melalui konsep hierarki. Sebagai contoh, data poskod diumpukkan kepada data yang lebih umum seperti daerah atau data umur diumpukkan kepada nilai umum seperti kanak-kanak, dewasa dan warga tua.
Integrasi data
Data yang diperoleh daripada dua atau lebih sumber yang berlainan lazimnya mempunyai bentuk dan skema yang berbeza. Perbezaan ini sekaligus menyebabkan data yang diperoleh adalah tidak seragam dan sukar untuk dianalisis. Antara isu yang perlu ditangani semasa proses integrasi data adalah percanggahan skema data dan percanggahan nilai data.
- Percanggahan skema data - merujuk kepada dua atau lebih sumber data yang menggunakan skema data yang berlainan tetapi merujuk kepada maklumat yang serupa. Contohnya sumber data pertama menyimpan maklumat nombor pekerja dalam fitur berjenis nominal yang dinamakan sebagai ‘nombor_staf’, manakala sumber data kedua pula menyimpan maklumat yang serupa dalam fitur yang dinamakan ‘id_staf’ dan berjenis nominal.
- Percanggahan nilai data - berlaku apabila sumber-sumber data menggunakan perwakilan, unit pengukuran dan kod yang berlainan di antara satu sama lain. Contoh mudah adalah keadaan apabila satu sumber data menggunakan perwakilan ‘Lelaki’’ dan ‘Perempuan’ bagi menunjukkan jantina, manakala satu sumber data yang lain menggunakan perwakilan ‘L’ dan ‘P’. Contoh lain adalah maklumat berat badan yang disimpan dalam unit kilogram dalam satu sumber sedangkan sumber yang lain menyimpannya dalam unit gram.
Bagi menangani kedua-dua isu di atas, antara langkah yang boleh diambil adalah dengan menggumpukkan skema data dan nilai data yang sepadan bagi keseluruhan set data. Dengan cara ini, keseluruhan set data dapat diseragamkan dan seterusnya membantu dalam proses penganalisaan data yang lebih berkesan.
Pengurangan data
Semakin besar saiz suatu data, ia memerlukan masa pemprosesan yang semakin lama. Oleh itu proses pengurangan data dilaksanakan bagi mendapatkan perwakilan set data yang lebih kecil. Proses ini perlu dilaksanakan dengan teliti supaya set data yang dikurangkan masih berupaya menghasilkan keputusan analitik yang sama dengan data asal. Pengurangan data boleh dilaksanakan melalui lima cara iaitu:
- Pengurangan saiz rekod
- Pengagregatan kiub data
- Pemampatan data
- Pendiskretan
- Pengurangan dimensi data - proses pengurangan fitur sama ada melalui pengekstrakan fitur atau pemilihan fitur