Teknik Pembelajaran Mesin yang Diawasi vs Tidak Diawasi – PromptCloud
Diterbitkan: 2017-10-21Pembelajaran yang Diawasi vs Tanpa Diawasi :
Menemukan pola dari data dengan menggunakan algoritma cerdas umumnya merupakan konsep inti dari pembelajaran mesin. Penemuan-penemuan ini sering kali mengarah pada wawasan yang dapat ditindaklanjuti, prediksi berbagai tren, dan membantu bisnis mendapatkan keunggulan kompetitif atau terkadang bahkan memperkuat produk baru dan inovatif. Kami baru-baru ini menjelaskan konsep pembelajaran mesin dan cara melatih algoritme pembelajaran mesin di posting blog ini . Karena kami tidak masuk jauh ke dalam berbagai jenis algoritma ML dan cara kerjanya, kami datang dengan posting ini, di mana kami akan menjelaskan klasifikasi algoritma pembelajaran mesin berdasarkan cara mereka 'belajar' untuk membuat prediksi.

Pada tingkat tinggi, ada dua jenis teknik pembelajaran mesin yang luas – Diawasi dan Tidak Diawasi. Mari kita lihat bagaimana mereka berbeda satu sama lain.
Teknik ML yang diawasi dan tidak diawasi
Seperti yang kami sebutkan sebelumnya, teknik ML terawasi dan tidak terawasi mewakili 'cara' algoritme pembelajaran mesin belajar membuat prediksi.
Dalam pembelajaran terawasi, pembuat algoritme ML memiliki keluaran terdefinisi dengan baik yang diharapkan dari mesin. Input dan output masing-masing telah ditentukan sebelumnya dan algoritma ML hanya belajar untuk menyempurnakan seni memberikan output berdasarkan input dengan akurasi yang lebih tinggi dari waktu ke waktu.
Pembelajaran terawasi juga seperti belajar dengan seorang guru. Guru, dalam hal ini adalah kumpulan data pelatihan yang disediakan untuk sistem pembelajaran mesin.
Saat belajar dengan seorang guru, siswa diberitahu apa yang mewakili apa. Misalnya, Anda dapat mengajari seorang anak tentang karakteristik anjing yang berbeda yang membantu membedakannya dari hewan lain, seperti:
- Bentuk wajah mereka (Panjang)
- Bagaimana mereka terdengar (Bark)
- Ukuran tubuh (Kecil hingga sedang)
- Ciri-ciri spesifik lainnya (Anjing sering mengibaskan ekornya)
Dengan data ini, anak harus dapat mengidentifikasi berbagai ras anjing. Setiap kali dia menemukan jenis anjing baru dan tidak dikenal, ciri-ciri yang dicari akan diperbarui dengan lebih banyak data. Misalnya, anjing pesek tidak memiliki wajah yang panjang seperti kebanyakan jenis anjing lainnya, tetapi dia adalah anjing. Ini adalah pembelajaran yang diawasi sejak kami pertama kali memberi anak itu serangkaian sifat yang harus dicari dan dia hanya menyempurnakannya dengan pengalaman.
Namun, dalam kasus pembelajaran tanpa pengawasan, anak itu sendirian. Dia hanya disajikan dengan berbagai hewan tanpa petunjuk tentang apa itu. Dia belajar mengidentifikasi hewan yang berbeda dengan mengelompokkannya berdasarkan ciri-ciri yang diamati. Singkatnya, ini adalah pembelajaran mesin tanpa pengawasan.
Sederhananya, pembelajaran terawasi adalah pembelajaran mesin berdasarkan data dengan hasil yang diharapkan sedangkan dalam kasus pembelajaran mesin tanpa pengawasan, sistem ML belajar mengidentifikasi pola dari data sendiri.
Pembelajaran mesin yang diawasi
Sebagian besar aplikasi praktis pembelajaran mesin menggunakan pembelajaran yang diawasi. Dalam pembelajaran terawasi, Anda menentukan variabel input (x) dan variabel output (Y) dan mengaktifkan algoritme untuk mempelajari cara memetakan input ke output.
Ini dapat didefinisikan sebagai Y = f(X)
Idenya adalah untuk membuat mesin sempurna pada pemetaan ini sehingga dapat memprediksi variabel output (Y) secara akurat untuk setiap data input baru yang Anda berikan. Algoritme memperlambat aktivitas pembelajaran ketika mencapai tingkat akurasi yang dapat diterima.
Pembelajaran terawasi selanjutnya dapat dikelompokkan ke dalam masalah klasifikasi dan regresi:
Klasifikasi : Masalah klasifikasi akan memiliki variabel keluaran yang merupakan kategori, seperti besar, kecil, sedang atau "merah" atau "hijau".
Regresi : Dalam masalah regresi, variabel keluaran adalah nilai aktual, seperti “kilogram” atau “dolar”.
Beberapa algoritma pembelajaran mesin terawasi yang populer adalah:
Regresi linier
Algoritma regresi terutama dimaksudkan untuk mendeteksi ketergantungan statistik antara variabel numerik. Model regresi linier pada dasarnya mencoba menemukan pendekatan linier terbaik untuk representasi data Anda. Ketika pendekatan ini berhasil, Anda dapat dengan mudah memprediksi nilai variabel dependen untuk setiap nilai variabel independen. Dengan cara ini, algoritme dapat digunakan untuk menentukan ketergantungan antara dua kolom numerik dalam kumpulan data input Anda. Misalnya, Anda dapat menggunakan regresi linier untuk memprediksi penjualan di tahun mendatang dengan menggunakan data historis sebagai input atau memproyeksikan jumlah orang yang akan mengunjungi situs web Anda berdasarkan tren musiman.

Hutan acak
Random Forest cukup mirip dengan pisau tentara swiss dari semua algoritma ilmu data. Pada catatan yang lebih ringan, ketika Anda tidak dapat memikirkan algoritma tertentu untuk masalah Anda, pilih hutan acak. Random Forest adalah contoh lain dari algoritma pembelajaran mesin yang diawasi yang digunakan untuk mengelompokkan titik data dalam kelompok fungsional. Ini sangat berguna untuk kumpulan data besar dengan jumlah variabel yang tinggi karena menjadi sulit untuk mengelompokkan data secara manual dengan mempertimbangkan semua variabel.
Karena sifatnya yang serbaguna, algoritme pembelajaran mesin ini dapat digunakan untuk tugas regresi dan klasifikasi. Itu juga dapat menangani metode pengurangan dimensi, memperlakukan nilai yang hilang, nilai outlier dan banyak metode eksplorasi data lainnya. Random Forest adalah metode pembelajaran ensemble di mana sekelompok model yang lemah digabungkan untuk bertindak sebagai model yang kuat.
Mendukung mesin vektor
Support Vector Machines adalah algoritma pembelajaran mesin terawasi lainnya yang dapat digunakan untuk masalah regresi atau klasifikasi. Dalam SVM, setiap item data diplot sebagai titik dalam ruang n-dimensi (n adalah jumlah fitur yang Anda miliki) dengan nilai setiap fitur menjadi nilai koordinat tertentu. Klasifikasi kemudian dilakukan dengan mengidentifikasi hyper-plane yang membedakan kedua kelas dengan cara yang terbaik.
SVM biasanya digunakan untuk tugas-tugas yang melibatkan klasifikasi teks seperti mendeteksi spam, analisis sentimen, dan penetapan kategori. Ini juga berguna dalam proyek pengenalan gambar di mana klasifikasi berbasis warna dan pengenalan berbasis aspek adalah aspek vital. Aplikasi penting lainnya adalah pengenalan angka tulisan tangan, yang berguna dalam mengotomatisasi layanan pos.
Pembelajaran mesin tanpa pengawasan
Dalam pembelajaran mesin tanpa pengawasan, hanya ada data input (X) dan tidak ada variabel output yang sesuai yang ditentukan. Idenya di sini adalah untuk mengungkapkan distribusi atau struktur data yang mendasarinya tanpa menempatkan batasan pada model. Dalam model pembelajaran mesin tanpa pengawasan, tidak ada jawaban yang benar seperti tidak ada guru. Algoritma dibiarkan sendiri untuk menemukan dan menyajikan struktur yang menarik dalam data.
Pembelajaran tanpa pengawasan selanjutnya dapat dikelompokkan ke dalam masalah Pengelompokan dan Asosiasi:
Pengelompokan : Dalam tantangan pengelompokan, Anda pada dasarnya mencoba menemukan pengelompokan yang mendasari dalam data, seperti mengelompokkan pelanggan berdasarkan perilaku belanja mereka.
Asosiasi : Dalam masalah asosiasi, tujuannya adalah untuk mengidentifikasi aturan yang menentukan sebagian besar data, seperti orang yang membeli iPhone juga cenderung membeli paket baterai.
Contoh populer dari algoritma tanpa pengawasan adalah:
K-means Clustering
K-means clustering adalah algoritma pembelajaran mesin tanpa pengawasan yang digunakan dalam situasi di mana data yang Anda miliki tidak berlabel (data dengan grup atau kategori yang tidak ditentukan). Algoritme dimaksudkan untuk mengidentifikasi grup dalam data di mana jumlah grup dilambangkan dengan variabel K. K-means bekerja dengan menetapkan setiap titik data ke salah satu grup K berdasarkan fitur yang disediakan. Kemudian dilanjutkan dengan mengelompokkan titik-titik data berdasarkan kesamaan fiturnya.
Sederhananya, pengelompokan K-means mengungkapkan grup yang tidak ditentukan dari data yang tidak berlabel. Ini sangat berguna dalam mengonfirmasi asumsi bisnis dari kumpulan data yang besar dan kompleks. Setelah algoritme dijalankan dan grup ditentukan, titik data baru dapat dengan mudah ditambahkan ke grup yang benar.
Algoritma apriori
Apriori adalah algoritma mesin klasik tanpa pengawasan yang digunakan untuk menambang aturan asosiasi dan itemset yang relevan. Ini sangat ideal untuk digunakan pada database dengan sejumlah besar transaksi seperti barang yang dibeli oleh pelanggan dari toko.
Prinsip apriori akan mengurangi jumlah itemset yang perlu diperiksa. Prinsipnya menyatakan bahwa jika suatu itemset tidak sering, tidak satu pun dari subsetnya juga akan menjadi sering. Algoritme apriori, yang sangat baik untuk pembelajaran mesin berbasis aturan asosiasi sedang banyak digunakan oleh perusahaan ritel.
Hasil menarik dari pembelajaran berbasis aturan asosiasi dapat dipahami dari cerita popok bir. Sebuah toko ritel menganalisis data mereka untuk menemukan bahwa pria muda Amerika yang membeli popok pada Jumat sore juga cenderung membeli bir. Mereka kemudian pergi ke depan dan menempatkan pulau bir dekat dengan pulau popok dan seperti yang diharapkan, penjualan bir naik.
Ini mungkin menunjukkan bahwa membesarkan anak-anak bisa sangat melelahkan dan orang tua secara tidak hati-hati beralih ke bir untuk menghilangkan stres mereka. Bagaimanapun, cerita ini adalah contoh sempurna dari aturan asosiasi dalam pembelajaran mesin.
Kesimpulan
Pembelajaran mesin membantu bisnis mencapai tingkat efisiensi yang belum pernah ada sebelumnya dan membuka jalan bagi inovasi teknologi baru. Karena data yang tersedia di web tumbuh dalam kuantitas dan kualitas setiap menit, teknologi pembelajaran mesin dapat dipercaya untuk mengungkap wawasan inovatif dari kumpulan data ini. Jika Anda ingin membuka potensi sebenarnya dari data yang Anda inginkan, membiasakan diri dengan teknik pembelajaran mesin ini terbukti sangat penting.
