Skip to main content

4. Data Exploration - Preprocessing.html

Data Exploration &

Pre-processing

 

Pendahuluan

Exploratory Data Analysis (EDA) adalah suatu proses pendekatan analitik untuk memahami data. EDA membantu untuk mengeksplorasi dataset, untuk menemukan pola, untuk mengidentifikasi anomali, untuk menguji hipotesis, dan untuk memeriksa asumsi dengan bantuan statistik deskriptif dan visualisasi data. Data exploration melibatkan penggunaan alat seperti grafik, tabel, dan perhitungan statistik untuk mengidentifikasi pola-pola dalam data. Tujuan akhir dari eksplorasi data adalah untuk memahami data dengan baik sehingga dapat digunakan untuk mengambil keputusan yang lebih baik dan mengidentifikasi peluang atau tantangan bisnis yang mungkin terjadi. Beberapa teknik eksplorasi data yang sering digunakan adalah analisis deskriptif, visualisasi data, dan metode statistik seperti pengukuran

pemusatan data dan variasi. Teknik ini dapat membantu untuk memahami sifat dasar data, seperti nilai-nilai ekstrim, distribusi, korelasi, dan kecenderungan.

Dalam EDA, biasanya kita melakukan beberapa tugas seperti:

1.    Melakukan pemeriksaan visual terhadap data, seperti histogram, scatter plot, box plot, dsb

2.    Memeriksa statistik deskriptif seperti mean, median, modus, varians, dan lain lain

3.    Menentukan korelasi antara variabel

4.    Identifikasi outlier atau data yang tidak biasa

5.    Pemrosesan awal data seperti membersihkan data, mengisi nilai yang hilang atau menghilangkan data yang salah, dan lain-lain.

EDA sangat penting dalam data science karena dapat membantu untuk memahami data sebelum memulai pemodelan atau analisis. Ini membantu untuk menghindari kesalahan dalam model dan memastikan bahwa data yang digunakan valid dan dapat dipercaya.

Data Pre-processing

Data Preprocessing adalah tahap persiapan data sebelum dilakukan analisis atau pengolahan lebih lanjut. Tujuan dari data preprocessing adalah untuk mempersiapkan data agar lebih baik, bersih, dan terstruktur sehingga analisis atau model yang dibuat dapat menghasilkan hasil yang lebih akurat dan dapat diandalkan.

1.    Data Cleaning: Melakukan pembersihan terhadap data yang rusak atau tidak lengkap. Contohnya adalah menghapus data yang hilang atau mengisi data yang kosong dengan nilai yang sesuai.

2.    Data Integration: Menggabungkan data dari beberapa sumber atau format ke dalam satu dataset yang lebih besar dan terstruktur. Contohnya adalah menggabungkan data dari beberapa file excel atau database yang berbeda.

3.    Data Transformation: Mengubah format atau struktur data, seperti mengubah tipe data, mengubah skala, atau normalisasi. Contohnya adalah mengubah format tanggal menjadi format yang lebih mudah diolah atau melakukan normalisasi pada data numerik.

4.    Data Reduction: Mengurangi dimensi atau ukuran data, seperti memilih subset data yang relevan atau melakukan reduksi fitur. Contohnya adalah memilih subset kolom yang relevan atau menggabungkan beberapa kolom menjadi satu kolom.

Tujuan dari data preprocessing adalah untuk mempersiapkan data agar sesuai dengan kebutuhan analisis atau model yang akan dibuat. Data yang sudah diproses akan menjadi lebih bersih, terstruktur, dan siap untuk dilakukan analisis lebih lanjut. Dengan melakukan data preprocessing, akan membantu dalam meningkatkan kualitas data dan memudahkan dalam proses analisis dan pengambilan keputusan.

Data Cleaning

Dalam melakukan data cleaning, tujuan utamanya adalah untuk menghasilkan data yang lebih bersih, terstruktur, dan akurat sehingga dapat diproses lebih lanjut untuk analisis atau model yang lebih baik dan akurat. Data cleaning juga membantu dalam meningkatkan kualitas data dan memudahkan dalam proses analisis dan pengambilan keputusan.

Beberapa teknik umum yang digunakan dalam data cleaning antara lain:

1.    Handling Missing Values: Data yang hilang dapat menghasilkan informasi yang tidak akurat atau tidak lengkap. Untuk mengatasi hal ini, ada beberapa metode untuk menangani data yang hilang, seperti menghapus data tersebut atau mengisi data yang hilang dengan nilai yang sesuai.

2.    Outlier Detection: Outlier adalah data yang tidak biasa atau di luar rentang yang normal. Outlier dapat mempengaruhi hasil analisis atau model, sehingga perlu diidentifikasi dan diperlakukan secara khusus.

3.    Handling Inconsistent Data: Data yang tidak konsisten dapat menghasilkan informasi yang salah. Contohnya adalah data numerik yang tidak sesuai dengan skala yang ditentukan atau data yang memiliki nilai yang bertentangan.

4.    Handling Duplicates: Duplikasi data dapat mempengaruhi kualitas data dan hasil analisis. Oleh karena itu, perlu dilakukan pengecekan dan penghapusan data duplikat.

Data Integration

Dalam melakukan Data Integration, tujuan utamanya adalah untuk menghasilkan data yang lebih lengkap dan terstruktur, sehingga dapat memberikan informasi yang lebih bermakna dan akurat. Dengan adanya Data Integration, memudahkan dalam pengambilan keputusan dan analisis yang lebih baik karena data yang terintegrasi dari berbagai sumber.

Data Integration sangat penting dalam banyak organisasi, terutama yang memiliki banyak sumber data yang berbeda, karena dapat membantu meningkatkan efisiensi, produktivitas, dan kualitas data. Dengan memiliki data yang terintegrasi, organisasi dapat menghindari duplikasi data, kesalahan, dan inkonsistensi, sehingga dapat mengambil keputusan bisnis yang lebih baik dan lebih tepat waktu.

Dalam Data Integration, terdapat beberapa metode yang biasanya digunakan, antara lain:

1. Data Warehouse: Mengumpulkan data dari berbagai sumber ke dalam satu tempat yang disebut sebagai Data Warehouse. Data Warehouse menyediakan lingkungan terpadu dan terstruktur untuk menyimpan dan mengakses data secara efektif.

2. ETL (Extract, Transform, Load): ETL adalah proses untuk mengekstrak data dari berbagai sumber, melakukan transformasi pada data agar sesuai dengan kebutuhan, dan memuat data ke dalam satu tempat. ETL merupakan metode yang sangat umum digunakan dalam Data Integration.

3. Federation: Federation adalah teknik untuk mengakses data dari berbagai sumber secara real-time. Data yang diambil dari berbagai sumber dapat digabungkan secara virtual, sehingga data terlihat seperti berasal dari satu sumber.

4. Enterprise Application Integration (EAI): EAI adalah teknologi yang digunakan untuk mengintegrasikan data dari berbagai aplikasi atau sistem yang

berbeda. EAI memungkinkan data yang berasal dari berbagai sistem berbeda untuk dapat diproses dan diintegrasikan menjadi satu kesatuan data.

Proses integrasi data melibatkan berbagai tahapan, seperti identifikasi sumber data, pemetaan data, transformasi data, dan penyatuan data. Identifikasi sumber data melibatkan pengenalan sumber data yang berbeda, baik itu dalam bentuk database, spreadsheet, file teks, atau sumber data lainnya. Pemetaan data melibatkan penentuan keterkaitan antara data dari sumber yang berbeda, sementara transformasi data melibatkan pengubahan format data menjadi format yang kompatibel dengan sistem yang digunakan. Terakhir, penyatuan data melibatkan penggabungan data dari berbagai sumber menjadi satu set data yang terintegrasi.

Data Transformation

Data transformation adalah proses mengubah data mentah yang telah dibersihkan menjadi bentuk atau format yang dapat digunakan untuk analisis. Beberapa contoh transformasi data yang umum meliputi:

1.    Normalisasi data: Normalisasi adalah proses mengubah data mentah menjadi format yang konsisten dan sesuai dengan standar tertentu. Misalnya, memastikan bahwa tanggal ditulis dalam format yang sama, atau bahwa data kuantitatif diwakili dalam unit yang sama.

2.    Agregasi data: Agregasi adalah proses menggabungkan data dari beberapa sumber atau kelompok dan menghitung jumlah, rata-rata, atau statistik lainnya. Misalnya, menghitung total penjualan bulanan atau rata-rata gaji karyawan per departemen.

3.    Pivoting data: Pivoting adalah proses mengubah data mentah yang diperoleh dari basis data menjadi format tabel pivot yang lebih mudah dipahami. Misalnya, mengubah data transaksi menjadi tabel pivot yang menunjukkan total transaksi per kategori produk dan waktu.

4.    Reduksi dimensi: Reduksi dimensi adalah proses mengurangi jumlah variabel atau fitur dalam dataset untuk mengurangi kompleksitas dan meningkatkan performa model analisis. Misalnya, menghapus fitur yang tidak berkorelasi dengan target variabel atau menggunakan teknik analisis faktor

Data Reduction

Data Reduction penting karena dapat membantu mengurangi kompleksitas data yang berlebihan dan memungkinkan penggunaan sumber daya yang lebih efisien

dalam mengolah data. Dengan cara ini, organisasi dapat menghemat waktu, biaya, dan sumber daya, serta mempercepat pengambilan keputusan dan analisis data yang lebih akurat. Proses Data Reduction dapat dilakukan dengan berbagai cara, diantaranya adalah:

1.    Sampling: memilih subset data secara acak atau sistematis untuk dianalisis atau diproses. Sampling dapat mengurangi waktu, biaya, dan sumber daya yang diperlukan untuk mengolah data.

2.    Dimensionality Reduction: mengurangi jumlah variabel atau atribut pada suatu dataset dengan menggunakan teknik seperti Principal Component Analysis (PCA), Independent Component Analysis (ICA), atau Linear Discriminant Analysis (LDA).

3.    Aggregation: menggabungkan data yang sama atau serupa menjadi satu entitas. Contohnya adalah penggabungan data per bulan atau per tahun menjadi data per kuartal atau per semester.

4.    Feature Selection: memilih subset fitur atau atribut dari data yang paling relevan atau berkontribusi signifikan dalam analisis atau pemrosesan data.

Quiz

1.    Apa tujuan dari Data Exploration?

a.    Mengubah data mentah menjadi data yang siap digunakan untuk pembuatan model machine learning

b.    Meningkatkan kualitas data

c.    Memahami karakteristik data dan menemukan pola yang berguna untuk model machine learning

d.    Semua jawaban benar

2.    Teknik apa yang biasanya digunakan dalam Data Exploration?

a.    Normalisasi, Encoding, dan Imputasi

b.    Visualisasi dan Analisis Korelasi

c.    Decision Tree dan Random Forest

d.    Algoritma Clustering dan Klasifikasi

3.    Apa tujuan dari Data Preprocessing?

a.    Meningkatkan kualitas data

b.    Memahami karakteristik data dan menemukan pola yang berguna untuk model machine learning

c.    Mengubah data mentah menjadi data yang siap digunakan untuk pembuatan model machine learning

d.    Semua jawaban benar

4.    Contoh teknik Data Preprocessing yang sering digunakan adalah?

a.    Normalisasi, Encoding, dan Imputasi

b.    Visualisasi dan Analisis Korelasi

c.    Decision Tree dan Random Forest

d.    Algoritma Clustering dan Klasifikasi

5.    Apa yang dimaksud dengan Normalisasi dalam Data Preprocessing?

a.    Proses untuk mengubah data kategorik menjadi data numerik

b.    Proses untuk mengubah data menjadi skala yang sama

c.    Proses untuk menghilangkan nilai yang hilang pada data

d.    Proses untuk memilih fitur terbaik dalam data

Referensi

Data Cleaning (monkeylearn.com)

Data Cleaning In 5 Easy Steps + Examples (iteratorshq.com)

Langkah Awal dalam Pemrosesan Data: Data Preprocessing dalam... (dqlab.id) Proses Analisis Data Lebih Mudah dengan Data Preprocessing - Algoritma Data Exploration & Image Pre-Processing.ipynb - Colaboratory (google.com) Exploratory Data Analysis : Pahami Lebih Dalam untuk Siap Ha... (dqlab.id)

Memahami Data Dengan Exploratory Data Analysis | by Andreas Chandra | Data Folks Indonesia | Medium

Transformasi Data dalam Tahapan Data Mining (chandraallim.blogspot.com) Data Reduction: A Simple And Concise Guide (2021) (jigsawacademy.com)

Last modified: Tuesday, 17 October 2023, 8:46 AM