Blog Jagoan Hosting | Tutorial Website & Web Hosting Indonesia

Cari Tahu Apa Bedanya Supervised vs Unsupervised Learning

Data Analyst maupun Data Scientist seringkali menggunakan beberapa algoritma machine learning untuk mengungkap pola-pola yang tersembunyi dalam rangka mendapatkan insigth dari suatu data. Pada level analisis yang tinggi, beberapa algoritma tersebut secara garis besar dapat dibagi menjadi dua bagian berdasarkan bagaimana “mereka” belajar yaitu supervised learning dan unsupervised learning.

Pendekatan supervised learning adalah algoritma yang paling sering digunakan dalam dunia data science dibandingkan dengan unsupervised learning. Analisis regresi linier berganda maupun logistik yang notabene sudah tidak asing lagi di dengar adalah salah satu contoh dari supervised learning.

Perbedaan kedua algorima tersebut terletak pada bagaimana mereka belajar untuk membuat suatu prediksi maupun klasifikasi. Dalam supervised learning, algoritma tersebut seolah-olah dilatih terlebih dahulu agar dapat melakukan prediksi maupun klasifikasi.

Data Scientist seolah-olah bertindak sebagai seorang supervisor untuk melatih algoritma tersebut. Sedangkan pada unsupervised learning, untuk melakukan prediksi maupun klasifikasi mereka tidak perlu dilatih terlebih dahulu. Sehingga dapat dikatakan bahwa supervised learning membutuhkan data training agar mampu melakukan prediksi maupun klasifikasi. Dalam bentuk matematis, dapat dituliskan bahwa

Supervised learning : Y = f(x)

Unsupervised learning : f(x)

Pendekatan supervised learning mempuyai input dan output yang dapat dibuat menjadi suatu model hubungan matematis sehingga mampu melakukan prediksi dan klasifikasi berdasarkan data yang telah ada sebelumnya.

Misalkan pada suatu kasus suatu provider hosting indonesia ingin melakukan ramalan tentang data pengguna website 5 bulan ke depan menggunakan analisis deret waktu. Analisis deret waktu (layaknya model regresi) menggunakan data sebelumnya untuk menggunakan peramalan. Data pada periode sebelumnya itulah yang disebut dengan data latih atau data training.

Sehingga dengan data training tersebut akan diperoleh suatu model regresi yang selanjutnya akan digunakan untuk melakukan peramalan. Jadi kesimpulannya adalah supervised learning menggunakan data latih (data training) dalam melakukan prediksi mapun klasifikasi. Beberapa algoritma yang termasuk dalam supervised learning adalah

  • Regresi Linier Berganda
  • Analisis Deret Waktu
  • Decision Tree dan Random Forest
  • Naive Bayes Classifier
  • Nearest Neighbor Classifier
  • Artificial Neural Network
  • Support Vector Machine

Pendekatan unsupervised learning tidak menggunakan data latih atau data training untuk melakukan prediksi maupun klasifikasi. Berdasarkan model matematisnya, algoritma ini tidak memiliki target variabel. Salah satu tujuan dari algoritma ini adalah mengelompokkan objek yang hampir sama dalam suatu area tertentu.

Contoh dari penerapan metode ini adalah ketika seorang data analyst ingin mengelompokkan customer salah satu provider hosting Indonesia berdasarkan kemiripan sifat dalam hal pendapatan, umur, hobi, dan jenis pekerjaan.

Untuk mengelompokkan customer berdasarkan kemiripan sifat tersebut tidak diperlukan data training. Menggunakan data yang ada, kita bisa secara langsung mengelompokkan customer-customer tersebut. Beberapa algoritma yang dapat digunakan dalam unsupervised learning adalah

  • K-Means
  • Hierarchical Clustering
  • DBSCAN
  • Fuzzy C-Means
  • Self-Organizing Map

Kesimpulan dari penjelasan di atas yaitu jika kita memiliki target variabel (Y) maka kita dapat menggunakan pendekatan supervised learning sedangkan jika tidak, maka kita dapat menggunakan unsupervised learning. Supervised learning membutuhkan data training (harus dilatih terlebih dahulu) sedangkan unsupervised learning tidak membutuhkan data training (tidak perlu dilatih terlebih dahulu).

 

SM Team