BATCH2 Software Engineering: Day 8 - Unsupervised Learning

Day 8 - Unsupervised Learning

Unsupervised Learning merupakan teknik pembelajar mesin yang tidak memerlukan supervisi dari pengembang, tidak seperti Supervised Learning yang memerlukan supervisi berupa pemberian label pada data yang diberikan. Karena tanpa adanya supervisi, maka model dapat bekerja secara independen dan sangat mungkin menemukan suatu pola ataupun informasi yang sebelumnya tidak disadari pengembang.

Dalam unsupervised learning ada beberapa tujuan yang dapat diberikan salah satunya mencari contoh serupa, hal inilah yang dikenal dengan clustering. Karena itu kita dapat menganggap bahwa cluster merupakan himpunan objek yang “mirip” dalam satu cluster namun “tidak mirip” dengan himpunan di cluster lainnya. Dalam penerapannya salah satu algoritma yang sering digunakan adalah K-Means.

Selanjutnya dalam unsupervised learning ada pembelajaran Association Rule. Pembelajaran Association Rule ini digunakan untuk mencari hubungan satu variabel dengan variabel lainnya dalam database/dataset. Dalam prosesnya kita dapat menghitungnya secara manual dengan 4 metrik yakni Support, Confidence, Lift, dan Conviction. Support yakni untuk menghitung frekuensi, hasil dari support digunakan Confidence untuk menghitung “kepercayaan diri” kita terhadap hubungan satu variabel dengan variabel lainnya, hasil dari Confidence digunakan lagi oleh Lift untuk menghitung besar hubungan antara variabel, lalu ada Conviction yang membandingkan variabel A muncul tanpa variabel B jika mereka independen dengan frekuensi sebenarnya dari kemunculan variabel A tanpa variabel B. Algoritma yang umum digunakan adalah algoritma apriori yang biasa digunakan untuk menganalisis daftar transaksi atau market basket, cara kerjanya pun menerapkan metode yang digunakan Association Rule seperti yang telah dijelaskan sebelumnya.

Lalu ada Natural Language Processing (NLP). NLP adalah metode yang memungkinkan mesin dapat mengenali bahasa manusia baik yang terucap ataupun yang tertulis. NLP pada dasarnya bekerja dengan dimulai dari proses Tokenization yang merupakan pemecahan text menjadi lebih kecil, selanjutnya adalah Stop Word Removal yang menghapus beberapa kata dengan menyisakan kata-kata yang unik, lalu Lemmatization dan Stemming yang mengembalikan kata-kata menjadi bentuk awal, dan terakhir Part-of-speech Tagging yang mengelompokkan kata- kata tersebut ke kelompok kata (kata benda, kerja, dan sifat).

Terakhir ada Anomaly Detection yang merupakan pengidentifikasian data yang menyimpang atau berperilaku tidak normal dibandingkan dengan data-data lainnya di kumpulan data tersebut. Anomaly Detection dapat digunakan untuk membersihkan data (kumpulan data sensor, yang dibersihkan adalah data noise) atau digunakan untuk hal-hal yang bersifat khusus seperti pendeteksi penipuan ataupun email spam. Anomaly Detection juga dapat menggunakan prinsip clustering sehingga data yang berada di luar cluster akan dianggap sebagai anomali.

Contoh

Berikut merupakan contoh penerapan dari anomaly detection menggunakan pyCaret dengan dataset contoh.

https://colab.research.google.com/drive/1RgFyOOPODMigC96TF_9160ixddI7kCev?usp=sharing

Referensi Baca

https://towardsdatascience.com/apriori-algorithm-for-association-rule-learning-how-to-find-clear-links-between-transactions-bf7ebc22cf0a
https://medium.com/@infharis/data-mining-definisi-dan-cara-kerja-algoritma-apriori-untuk-pencarian-association-rule-a44a8f864a61
https://www.techtarget.com/searchenterpriseai/definition/natural-language-processing-NLP
https://towardsdatascience.com/anomaly-detection-cheat-sheet-5502fc4f6bea

Last modified: Friday, 17 February 2023, 12:15 AM

Creating Business as Software Engineering Specialists for Manufacturing Industry 4.0

Day 8 - Unsupervised Learning