Atasi Masalah Pembelajaran Mesin

Diterbitkan: 2017-11-01

Daftar Isi menunjukkan

Mencari opsi gratis untuk memulai?

Faktor-faktor apa yang harus Dipertimbangkan saat Membangun Kumpulan Data Pelatihan Machine Learning?

Mengidentifikasi Jenis Algoritma dalam Pengembangan

Mengidentifikasi dengan Benar 'jika' dan 'kapan' Big Data Diperlukan

Untuk menyimpulkan

Dengan lintasan pertumbuhan pembelajaran mesin yang agresif, semakin banyak ilmuwan data yang berfokus untuk mendapatkan hasil yang meniru aplikasi praktis dunia nyata. Untuk ini, mereka mengandalkan kumpulan data pelatihan untuk melatih model mereka dan 'belajar' lebih baik. Setelah ini selesai, data tersebut dilewatkan melalui data aktual yang belum dilatih, menggunakan kumpulan data uji . Oleh karena itu, set data pelatihan pembelajaran mesin adalah data untuk mana MLP dilatih menggunakan set data pelatihan.

Baik set data pelatihan maupun pengujian akan mencoba menyelaraskan dengan sampel populasi yang representatif. Ini memastikan bahwa hasilnya akan berlaku secara universal untuk sampel ini. Itulah pembelajaran mesin secara singkat.

apa yang harus dicari dalam data pelatihan

Mencari opsi gratis untuk memulai?

Jika Anda mencari beberapa sumber database gratis yang berharga untuk membangun set data pelatihan Anda, maka opsi di bawah ini bisa menjadi titik awal yang bagus untuk Anda:

UCI- Repositori Pembelajaran Mesin
Iris by UCI [Memiliki 3 kelas, 50 sampel untuk setiap kelas berjumlah 150 titik data; sumber yang bagus untuk pemula]
Kaggle
Kumpulan Data Terbuka Membantu Mengajarkan Hal-Hal Dan Robot Menjadi Cerdas Dan Lebih Berguna
ML Bench oleh R
MIAS
Mulan
DataStock oleh PromptCloud

Faktor apa yang harus Dipertimbangkan saat Membangun Kumpulan Data Pelatihan Pembelajaran Mesin ?

1. Jumlah yang Tepat

Anda perlu menilai dan menyiapkan jawaban untuk pertanyaan-pertanyaan dasar ini seputar kuantitas data:

Jumlah record yang diambil dari database
Ukuran sampel yang dibutuhkan untuk menghasilkan hasil kinerja yang diharapkan
Pemisahan data untuk pelatihan dan pengujian atau menggunakan pendekatan alternatif seperti k-fold cross-validation

2. Pendekatan untuk Memisahkan Data

Anda memerlukan data untuk membangun model, dan Anda memerlukan data untuk menguji model. Harus ada metode untuk membagi dataset menjadi dua bagian ini. Anda dapat memilih split acak atau split berdasarkan waktu. Dalam yang terakhir, aturan umum adalah bahwa data yang lebih lama adalah untuk pelatihan dan data yang lebih baru untuk pengujian. Beberapa kumpulan data memerlukan pendekatan lain seperti pengambilan sampel bertingkat atau pengambilan sampel klaster. Jika Anda benar-benar tidak yakin, lakukan uji coba kecil untuk memvalidasi model Anda dan kemudian gulung secara menyeluruh.

3. Sejarah Masa Lalu

Banyak ilmuwan data telah mengerjakan masalah di masa lalu dan menghasilkan kumpulan data pelatihan untuk kebutuhan pemodelan spesifik mereka. Mengerjakan masalah pembelajaran mesin yang diterapkan membuatnya lebih mudah untuk tidak hanya mendapatkan kumpulan data yang tepat tetapi juga ada kepastian untuk hasil yang diantisipasi.

Anda dapat memeriksa studi yang memiliki masalah yang mirip dengan masalah Anda saat ini dan mengambil data untuk efektivitas yang lebih baik dari proses pembuatan model. Jika Anda cukup beruntung untuk mendapatkan sejumlah besar penelitian serupa yang dilakukan di masa lalu, Anda dapat menghitung rata-ratanya untuk tujuan pembangunan Anda.

4. Keahlian Domain

Filosofi 'Garbage In Garbage Out' sangat valid untuk dataset pelatihan untuk pembelajaran mesin. Algoritme pembelajaran mesin akan mempelajari data apa pun yang Anda berikan. Sehingga jika data yang diberikan sebagai input berkualitas baik, maka algoritma pembelajaran yang dikembangkan juga akan berkualitas baik. Biasanya, sampel yang Anda berikan harus memiliki dua kualitas utama – independensi dan distribusi yang identik.

Dan bagaimana Anda menentukan apakah yang diinput itu berkualitas baik? Sederhana. Mintalah seorang ahli materi pelajaran menjalankan sepasang mata yang terlatih melalui data. Ia akan dapat menilai apakah sampel yang digunakan memadai, apakah sampelnya merata, dan apakah sampelnya mandiri.

Pakar juga dapat membantu dalam merekayasa data sedemikian rupa sehingga Anda mendapatkan kumpulan yang lebih besar tanpa mengorbankan prinsip dasar cakupan dan penerapan universal. Ia juga dapat membantu mensimulasikan data yang saat ini tidak Anda miliki tetapi ingin digunakan untuk melatih program pembelajaran mesin.

5. Jenis Transformasi Data yang Tepat

Setelah Anda memproses data bersih, Anda dapat mengubahnya berdasarkan tujuan pelatihan pembelajaran mesin Anda. Keahlian domain dan fitur/fungsi algoritme dapat membantu Anda menentukan jenis transformasi yang tepat untuk diterapkan guna meningkatkan dataset pelatihan. Langkah rekayasa fitur ini membantu dalam mengubah data menjadi satu yang paling cocok untuk jenis analisis tertentu. Rekayasa fitur dapat terdiri dari satu atau lebih proses transformasi data di bawah ini.

sebuah. Penskalaan – Biasanya kumpulan data yang diproses akan memiliki atribut yang menggunakan berbagai skala untuk metrik seperti bobot (kilogram atau pound), jarak (kilometer atau mil), atau mata uang (dolar atau euro). Anda perlu mengurangi variasi dalam skala untuk hasil yang jauh lebih baik. Langkah penskalaan fitur ini akan membantu menganalisis data dengan lebih baik.

b. Dekomposisi – Dengan bantuan dekomposisi fungsional, variabel kompleks dapat dipecah menjadi tingkat granular menjadi bagian-bagian penyusunnya. Bagian konstituen individu ini mungkin memiliki beberapa sifat atau karakteristik bawaan yang dapat ditambahkan dalam keseluruhan proses pembuatan pembelajaran mesin. Oleh karena itu, berpisah untuk mencapai karakteristik ini adalah penting. Ini membantu untuk memisahkan 'noise' dari elemen atau komponen yang sebenarnya kita minati untuk membangun set data pelatihan. Cara metode jaringan Bayesian mencoba untuk membagi distribusi bersama di sepanjang garis patahan kausalnya, adalah contoh klasik dari dekomposisi yang sedang bekerja.

c. Agregasi – Kebalikan dari dekomposisi adalah metode agregasi. Ini menggabungkan beberapa variabel yang menampilkan atribut serupa menjadi satu entitas yang lebih besar. Untuk beberapa set data pembelajaran mesin, ini mungkin cara yang lebih masuk akal untuk membangun set data untuk memecahkan masalah tertentu. Contohnya adalah bagaimana respons survei agregat dapat dilacak daripada melihat respons individu, untuk memecahkan masalah tertentu melalui pembelajaran mesin.

Mengidentifikasi Jenis Algoritma dalam Pengembangan

Anda dapat menggunakan algoritma linier atau non-linier. Mengetahui jenis algoritme yang Anda jalankan, Anda akan dapat menilai dengan lebih baik jenis dan jumlah data yang diperlukan untuk membangun kumpulan data pelatihan. Biasanya, algoritma non-linear dianggap lebih kuat. Mereka mampu memahami dan membangun koneksi dalam hubungan non-linear antara fitur input dan output.

Dalam hal struktur keseluruhan, algoritme nonlinier ini mungkin lebih fleksibel dan nonparametrik (algoritme tersebut dapat mengetahui tidak hanya berapa banyak parameter yang diperlukan, tetapi juga menentukan nilai apa yang harus ada untuk parameter ini guna menyelesaikan masalah pembelajaran mesin tertentu dengan lebih baik). Karena non-linier, itu berarti dapat menampilkan tingkat varians yang tinggi, yaitu hasil dari algoritma dapat bervariasi berdasarkan data apa yang digunakan untuk melatihnya.

Ini juga berarti bahwa algoritme non-linier membutuhkan lebih banyak volume data di dalam set data pelatihan agar dapat memahami koneksi dan hubungan kompleks antara entitas berbeda yang dianalisis. Sebagian besar perusahaan yang lebih dikenal tertarik pada algoritme yang terus meningkat karena semakin banyak data yang dimasukkan ke dalam sistem mereka.

Mengidentifikasi dengan Benar 'jika' dan 'kapan' Big Data Diperlukan

Ketika kita berbicara tentang membangun dataset pelatihan, kita perlu menilai dengan cerdas jika memang diperlukan big data (volume data yang sangat tinggi). Jika demikian, maka pada titik mana pembuatan dataset harus kita bawa dalam big data. Selain biaya-intensif, memperkenalkan big data dapat secara signifikan mempengaruhi waktu ke pasar membangun dataset. Namun, jika itu benar-benar tidak dapat dihindari maka Anda perlu menempatkan sumber daya untuk mendapatkan data besar untuk menjadi bagian dari kumpulan data pelatihan Anda.

Contoh kasus klasik adalah ketika Anda melakukan pemodelan prediktif tradisional. Dalam hal ini, Anda mungkin mencapai titik pengembalian yang semakin berkurang di mana hasil tidak akan sesuai dengan jumlah data yang Anda masukkan. Anda mungkin membutuhkan lebih banyak data untuk mengatasi hambatan ini. Dengan hati-hati menilai model pilihan Anda dan masalah spesifik Anda, Anda dapat mengetahui kapan titik ini akan tiba dan kapan Anda akan membutuhkan volume data yang jauh lebih besar.

Untuk menyimpulkan

Membangun set data pelatihan mendorong kualitas model pembelajaran mesin secara keseluruhan. Dengan faktor-faktor ini, Anda dapat memastikan bahwa Anda membangun set data machine learning berperforma tinggi dan mendapatkan manfaat dari model pembelajaran mesin yang kuat, bermakna, dan akurat yang telah 'belajar' dari set data pelatihan yang superior.

Tertarik untuk membagikan faktor utama lainnya yang dapat memengaruhi kualitas set data pelatihan untuk pembelajaran mesin? Tulis di komentar di bawah dan beri tahu kami pendapat Anda.