Ilmuwan Data dan Metode Ilmu Data mereka di Dunia saat ini

Diterbitkan: 2022-05-19
Daftar Isi menunjukkan
Ilmuwan Data Paling Terkenal yang berjalan di Bumi
Alan Turing
Alex Krizhevsky
Ian Goodfellow
Sebastian Thrun
Andrew Ng
Dan jalan ke depan…
Menggunakan Infrastruktur Cloud untuk Memproses Data
Internet untuk segala
Pemrosesan Bahasa Alami yang Lebih Kuat
Kesehatan

Ilmu Data adalah bidang yang telah berkembang pesat, seperti halnya data buatan manusia dan mesin itu sendiri. Ini telah menyebabkan pertumbuhan jumlah individu dari berbagai bidang seperti matematika dan biosains, mengambil data sebagai alat untuk memecahkan masalah. Algoritma telah jauh melampaui penanganan angka dan teks. Saat ini, mereka memproses hampir semua format data seperti gambar, video, dan audio. Ini telah memberi perusahaan akses ke lebih banyak data tidak terstruktur. Sumber data juga telah berkembang, dan saat ini data media sosial adalah salah satu sumber utama bagi banyak perusahaan yang mencoba membuat profil individu. Semua ini berada di atas data terstruktur yang sudah tumbuh secara eksponensial.

Ilmuwan Data Paling Terkenal yang berjalan di Bumi

Ada banyak penemuan besar dalam ilmu data dan kita dapat mengharapkan lebih banyak lagi di hari-hari mendatang. Kami berada di titik di mana penemuan revolusioner dalam ilmu data sedang berlangsung dan digunakan untuk memecahkan masalah kehidupan nyata. Akan bermanfaat untuk melihat beberapa penemuan dan temuan terbesar sejak awal.

Alan Turing

Alan Turing mungkin adalah salah satu ilmuwan data paling terkenal yang pernah ada. Dia dianggap sebagai bapak kecerdasan buatan serta ilmu komputer teoretis.

Dia telah menjadi nama populer melalui film- "The Imitation Game". Namun, penemuannya tentang Bombe, perangkat elektromekanis yang digunakan untuk memecahkan Enigma (perangkat sandi Jerman dari Perang Dunia II) bukanlah satu-satunya penemuannya. Pekerjaan penelitiannya mengarah pada penciptaan mesin pertama yang dapat menghitung seluruh skenario matematika. Model percontohan mesin memiliki kecepatan clock 1MHz- komputer tercepat saat itu. Selama perang dingin, penelitiannya bahkan digunakan untuk menghitung pergerakan pesawat.

Dia juga menciptakan Turing Test– seperangkat aturan untuk menentukan apakah komputer dapat berpikir dan bertindak seperti manusia. Berdasarkan seberapa dekat sebuah mesin dapat meniru manusia, persentase kelulusan dihitung. Kami menggunakan banyak variasi tes hari ini, yang paling umum adalah Captcha. Captcha adalah tes Turing terbalik di mana manusia perlu membuktikan bahwa mereka bukan mesin.

Alex Krizhevsky

Tahun 2012 terbukti penting untuk pembelajaran mendalam (cabang pembelajaran mesin di mana jaringan saraf tiruan digunakan untuk mengekstrak fitur dari data besar). Krizhevsky memberdayakan jaringan saraf ke tingkat yang belum pernah terlihat sebelumnya. Dia mendirikan "Alexnet", sebuah algoritma yang mengurangi tingkat kesalahan untuk kompetisi Imagenet hingga setengahnya (hampir 15%). Tantangan ImageNet adalah di mana individu perlu mengklasifikasikan jutaan objek di ratusan kategori.

Algoritmenya dapat mendeteksi kucing dengan akurasi hampir 75% dan wajah dari video YouTube dengan akurasi lebih dari 80%. Perangkat lunak pengenalan wajah yang berjalan pada sistem keamanan, atau yang Anda gunakan untuk membuka kunci ponsel Anda hari ini, semuanya dapat dikaitkan dengan pria ini. Pencitraan medis adalah bidang lain yang mendapat dorongan besar berkat penggunaan jaringan saraf untuk mendeteksi gambar.

Ian Goodfellow

Ian Goodfellow memperkenalkan dunia ke Generative Adversarial Networks (GANs) yang dapat memiliki 2 jenis model–

  1. Model generator, setelah dilatih tentang data, mencoba membuat contoh baru dengan tipe yang sama.
  2. Model diskriminator mencoba mengklasifikasikan konten asli dan palsu (dibuat).

Sayangnya, model generator telah banyak disalahgunakan hari ini dalam apa yang paling dikenal sebagai DeepFakes. Banyak yang memposting pidato orang-orang populer yang tidak dapat dipercaya di internet - yang nantinya semuanya ditemukan sebagai DeepFakes. Ini telah membuka sekaleng worm di mana hampir semua orang dengan laptop dan koneksi internet dapat membuat video yang sama sekali baru dari yang sudah ada dan membuat pembicara mengatakan apa saja. Kecerdasan buatan yang dimainkan belajar dari video yang ada dan kemudian dapat secara otomatis meniru ekspresi wajah, suara, dan gaya berbicara.

Algoritme telah merambah di mana tidak ada kode mesin lain yang sebelumnya melakukan kreativitas manusia. Itu bisa membuat lukisan dan menghasilkan wajah (yang tidak ada). Lukisan yang dibuat oleh GAN bahkan telah terjual sebanyak $400K di lelang. Perusahaan seperti Adobe telah menemukan teknik baru untuk menemukan konten palsu karena situasinya sekarang sudah tidak terkendali. GAN tidak hanya memengaruhi adegan AI saat ini, tetapi cenderung menyebabkan penemuan yang lebih radikal di tahun-tahun mendatang.

Sebastian Thrun

Sementara sebagian besar dari Anda pasti pernah mendengar tentang Tesla, perusahaan pertama yang membuat mobil self-driving benar-benar dapat diakses oleh massa, hanya sedikit yang pernah mendengar nama Sebastian Thrun. Dikenal sebagai Bapak Mobil Self Driving, Thrun memenangkan kontes kendaraan self-driving yang diadakan oleh Pentagon pada tahun 2005. Dia juga mendirikan dan menjalankan proyek Google Driverless Car sebelum dia pergi untuk memulai Udacity dan membuat pendidikan lebih mudah diakses oleh orang banyak. Tugasnya dengan robotika, bagaimanapun, dimulai jauh sebelumnya, ketika pada tahun 1997, ia menciptakan pemandu wisata robotik pertama untuk Deutsches Museum Bonn. Dia juga telah dikaitkan dengan beberapa laboratorium AI terkemuka, seperti yang ada di CMU dan Stanford.

Andrew Ng

Ada kontribusi besar baik dari komunitas open-source maupun dari ilmuwan data seperti Andrew Ng (pendiri Coursera) untuk membuat Ilmu Data dapat diakses oleh massa. Google membuat TensorFlow gratis untuk digunakan pada tahun 2015, dan Facebook mengikutinya dengan PyTorch pada tahun 2016. Pustaka khusus dalam bahasa seperti Python (seperti Scikit Learn dan Pandas) membuatnya sangat mudah bagi siapa saja untuk memulai dalam hitungan jam).

Kursus seperti yang dilakukan oleh Andrew telah membantu individu yang bukan dari latar belakang matematika untuk memahami cara kerja algoritme AI. Ada juga situs web seperti Kaggle dan GitHub yang membuat masalah AI, kumpulan data, dan solusi mudah diakses oleh siapa saja di internet.

Dan jalan ke depan…

Kami baru saja membahas beberapa proyek penelitian terbesar, ilmuwan dan pendidik yang telah berkontribusi di bidang Ilmu Data, tetapi apa yang ada selanjutnya? Alat mana yang akan memainkan peran lebih besar? Masalah apa yang menjadi fokus komunitas Ilmu Data selanjutnya? Bagaimana perusahaan mencoba menggunakan semua penelitian dan penemuan ini untuk mendukung pengambilan keputusan berdasarkan data? Untuk mengetahui jawaban atas pertanyaan-pertanyaan ini, kita harus melihat tren terbaru di lapangan–

Menggunakan Infrastruktur Cloud untuk Memproses Data

Pengumpulan data telah berkembang setiap tahun. Perusahaan telah menambahkan sumber baru, seperti sumber pihak ketiga atau data media sosial. Namun, tantangannya terletak pada pembersihan, normalisasi, pemrosesan, dan pemformatan kumpulan data yang begitu besar. Karena banyak dari sumber-sumber ini menghasilkan data semi atau tidak terstruktur, pemrosesannya membutuhkan lebih banyak sumber daya. Menjalankan algoritme pada data pengujian yang merata dapat menjadi tantangan besar pada mesin lokal (laptop).

Inilah alasan mengapa penyedia layanan cloud seperti AWS melihat bisnis mereka tumbuh hingga miliaran dolar. Layanan cloud seperti AWS S3 menyediakan layanan yang sangat murah untuk menyimpan data. Ini juga beberapa layanan cloud pertama yang muncul. Penyimpanan Data hanyalah permulaan, layanan baru yang berhubungan dengan pemrosesan dan pemformatan juga telah menemukan kegunaan yang lebih besar. Saat ini, Insinyur Data yang dapat menghitung dan membuat infrastruktur yang efisien untuk sistem berbasis data lebih diminati dibandingkan dengan ilmuwan data.

Semua ini telah mengubah cara perusahaan menggunakan data besar dan layanan cloud. Data itu sendiri ditawarkan sebagai layanan oleh penyedia DaaS (Data as a Service), seperti PromptCloud. Layanan ini memungkinkan perusahaan untuk mengakses data pihak ketiga atau data pesaing dengan menentukan situs web tempat mereka memerlukan data untuk digores dan titik data yang diperlukan.

Internet untuk segala

Meskipun Internet of Things bukanlah hal baru, baru sekarang semakin banyak perangkat fisik yang berkomunikasi satu sama lain. Lebih banyak perangkat yang terhubung ke cloud daripada sebelumnya, dan mereka mengumpulkan dan berbagi semua data yang dikumpulkan melalui sensor mereka.

Ini memungkinkan solusi zaman baru seperti diagnostik mesin jarak jauh. Solusi perangkat lunak dapat menggunakan data sensor untuk memberi Anda perkiraan masa pakai suku cadang dan aksesori yang berbeda. Data membantu memberi tahu individu ketika sistem mungkin berhenti bekerja. Karena semakin banyak data yang dikumpulkan dan deep learning bekerja dengan baik, kami akan menggunakan lebih banyak data untuk membuat prediksi yang lebih baik yang melibatkan mesin yang terhubung ke IoT. Kami juga cenderung melihat penggunaan IoT yang lebih tinggi di tingkat industri, selain dari robot di gudang yang telah berkembang pesat selama beberapa tahun terakhir.

Pemrosesan Bahasa Alami yang Lebih Kuat

Bagian dari Artificial Intelligence, NLP berkaitan dengan bahasa manusia. Inilah yang memberi kekuatan pada Siri, atau Alexa. Ini berkaitan dengan bagaimana bahasa digunakan secara real-time daripada hanya berfokus pada komposisi tata bahasa. Perusahaan diharapkan menggunakan temuan terbaru di NLP dalam produk yang lebih baru sehingga individu dapat berinteraksi dengan mesin dan perangkat lunak dengan lebih mudah. Kami tidak jauh dari hari ketika Anda akan berbicara ke komputer Anda dan itu akan melakukan tugas untuk Anda.

Kesehatan

Pembelajaran Mesin dan Ilmu Data sangat memengaruhi ilmu kedokteran. Kami telah menerapkannya untuk memecahkan masalah seperti deteksi diabetes, identifikasi sel kanker, radiologi, dan patologi. Sebuah studi yang dilakukan oleh Stanford telah menunjukkan bahwa AI dapat mengidentifikasi kanker kulit seperti halnya dokter.

Dekade mendatang akan melihat banyak pekerjaan penelitian dan makalah yang digunakan secara praktis. Kita bisa mengharapkan banyak terobosan–

  • Identifikasi dan prediksi penyakit bahkan sebelum terjadi.
  • Mesin dapat memproses gambar medis lebih efisien daripada manusia.
  • Memprediksi wabah seperti COVID-19.
  • Catatan dan pelacakan Kesehatan yang Lebih Cerdas melalui berbagai cara seperti jam tangan pintar.

Jarak yang kita tempuh sangat jauh! Kita dapat melakukan komputasi yang membutuhkan mesin yang akan mengisi seluruh ruangan, pada sebuah chip seukuran kuku kaki hari ini. Kemajuan dalam pembuatan chip, serta kecepatan internet dan transfer data yang lebih cepat, secara langsung berkontribusi pada pertumbuhan ilmu data dan aplikasi kehidupan nyatanya. Masa depan ilmu data akan bergantung pada berbagai sektor dan organisasi dan ilmu data yang demokratis akan menciptakan bidang yang setara untuk semua.