Günümüz Dünyasında Veri Bilimcileri ve Veri Bilimi Yöntemleri
Yayınlanan: 2022-05-19Veri Bilimi, tıpkı insan yapımı ve makine tarafından oluşturulan verilerin kendisi gibi, sıçrama ve sınırların ötesine geçen bir alandır. Verileri problem çözme aracı olarak ele alarak matematik ve biyobilim gibi farklı alanlardan bireylerin sayısında artışa yol açmıştır. Algoritmalar, sayıları ve metinleri işlemenin çok ötesine geçti. Bugün, resim, video ve ses gibi neredeyse tüm veri formatlarını işliyorlar. Bu, şirketlere daha geniş bir yapılandırılmamış veri yelpazesine erişim sağladı. Veri kaynakları da büyüdü ve günümüzde sosyal medya verileri, bireylerin profilini çıkarmaya çalışan birçok şirket için kilit kaynaklardan biri. Tüm bunlar, zaten katlanarak büyüyen yapılandırılmış verilerin üzerindedir.
Dünya'da Yürüyen En Ünlü Veri Bilimcileri
Veri biliminde büyük keşifler oldu ve önümüzdeki günlerde daha fazlasını bekleyebiliriz. Veri biliminde devrim niteliğinde keşiflerin gerçekleştiği ve gerçek hayat problemlerini çözmek için kullanıldığı bir noktadayız. Başından beri en büyük keşif ve bulgulardan bazılarına bakmak faydalı olacaktır.
Alan Turing
Alan Turing, muhtemelen var olan en ünlü veri bilimcilerinden biridir. Teorik bilgisayar biliminin yanı sıra yapay zekanın babası olarak kabul edilir.
“Taklit Oyunu” filmiyle popüler bir isim oldu. Ancak, Enigma'yı kırmak için kullanılan elektromekanik cihaz olan Bombe'yi icadı (II. Araştırma çalışması, tüm matematiksel senaryoları hesaplayabilen ilk makinenin yaratılmasına yol açtı. Makinenin pilot modeli, zamanın en hızlı bilgisayarı olan 1MHz'lik bir saat hızına sahipti. Soğuk savaş sırasında, araştırmaları uçak hareketlerini hesaplamak için bile kullanıldı.
Ayrıca, bir bilgisayarın insan gibi düşünüp davranamayacağını belirlemek için bir kurallar dizisi olan Turing Testini yarattı. Bir makinenin bir insanı ne kadar yakından taklit edebileceğine bağlı olarak, geçiş yüzdesi hesaplanır. Bugün testin birçok varyasyonunu kullanıyoruz, en yaygın olanı Captcha. Captcha, insanların bir makine olmadıklarını kanıtlamaları gereken bir ters Turing testidir.
Alex Krizhevsky
2012 yılı, derin öğrenme (büyük verilerden özellikler çıkarmak için yapay sinir ağlarının kullanıldığı bir makine öğrenimi dalı) için hayati olduğunu kanıtladı. Krizhevsky, sinir ağlarını daha önce hiç görülmemiş düzeylerde güçlendirdi. Imagenet yarışması için hata oranlarını yarıya indiren (neredeyse %15) bir algoritma olan “Alexnet”i kurdu. ImageNet Challenge, bireylerin yüzlerce kategoride milyonlarca nesneyi sınıflandırması gereken yerdir.
Algoritması, kedileri neredeyse %75 doğrulukla ve YouTube videolarından yüzleri %80'in üzerinde doğrulukla algılayabiliyordu. Güvenlik sistemlerinde çalışan veya bugün telefonunuzun kilidini açmak için kullandığınız yüz tanıma yazılımlarının tümü bu adama atfedilebilir. Tıbbi görüntüleme, görüntüleri algılamak için sinir ağlarının kullanımı sayesinde büyük bir artış sağlayan başka bir alandır.
Ian Goodfellow
Ian Goodfellow, dünyayı 2 tür modele sahip olabilen Üretken Düşman Ağları (GAN'lar) ile tanıştırdı.
- Oluşturucu modeli, bir kez veriler üzerinde eğitildikten sonra, aynı türden yeni örnekler oluşturmaya çalışır.
- Ayrımcı model, gerçek ve sahte (oluşturulmuş) içeriği sınıflandırmaya çalışır.
Ne yazık ki, jeneratör modeli bugün en çok DeepFakes olarak bilinen şeyde yaygın olarak kötüye kullanıldı. Birçoğu internette popüler kişilerin inanılmaz konuşmalarını yayınladı ve bunların hepsinin daha sonra DeepFakes olduğu anlaşıldı. Neredeyse bir dizüstü bilgisayarı ve internet bağlantısı olan herkesin mevcut bir videodan tamamen yeni bir video oluşturabileceği ve konuşmacının kesinlikle her şeyi söylemesini sağlayabileceği bir solucan kutusu açtı. Oyundaki yapay zeka, mevcut bir videodan öğrenir ve daha sonra yüz ifadelerini, sesi ve konuşma tarzını otomatik olarak taklit edebilir.
Algoritma, daha önce başka hiçbir makine kodunun -insan yaratıcılığının yapmadığı yere- tecavüz etti. Resimler oluşturabilir ve (var olmayan) yüzler oluşturabilir. GAN'lar tarafından yapılan resimler müzayedelerde 400 bin dolara kadar satıldı. Adobe gibi şirketler, durum artık kontrolden çıktığı için sahte içeriği tespit etmek için yeni teknikler geliştirdi. GAN'lar yalnızca mevcut AI sahnesini etkilemekle kalmadı, aynı zamanda gelecek yıllarda daha radikal keşiflere neden olması muhtemeldir.
Sebastian Thrun
Çoğunuz kendi kendini süren arabaları kitleler için gerçekten erişilebilir hale getiren ilk şirket olan Tesla'yı duymuş olsanız da, Sebastian Thrun'un adını çok azınız duymuş olmalı. Halk arasında Sürücüsüz Arabaların Babası olarak bilinen Thrun, 2005 yılında Pentagon tarafından düzenlenen sürücüsüz araçlar yarışmasını kazandı. Ayrıca, Udacity'yi başlatmak ve eğitimi kalabalıklar için daha erişilebilir kılmak için ayrılmadan önce Google Sürücüsüz Araba projesini kurdu ve yürüttü. Ancak robotik konusundaki tecrübesi çok daha önce, 1997'de Deutsches Museum Bonn için ilk robotik tur rehberini yaratmasıyla başladı. Ayrıca CMU ve Stanford'dakiler gibi önde gelen birçok yapay zeka laboratuvarıyla da ilişkilendirilmiştir.

Andrew Ng
Veri Bilimini kitleler için erişilebilir kılmak için hem açık kaynak topluluğunun hem de Andrew Ng (Coursera'nın kurucu ortağı) gibi veri bilimcilerinin büyük katkısı oldu. Google, 2015'te TensorFlow'u ücretsiz hale getirdi ve Facebook, 2016'da PyTorch ile aynı yolu izledi. Python gibi dillerdeki (Scikit Learn ve Pandas gibi) özel kitaplıklar, herkesin birkaç saat içinde başlamasını son derece kolaylaştırdı.
Andrew tarafından verilenler gibi kurslar, matematiksel bir altyapıya sahip olmayan kişilerin AI algoritmalarının nasıl çalıştığının temeline inmesine yardımcı oldu. Yapay zeka sorunlarını, veri kümelerini ve çözümlerini internetteki herkesin kolayca erişebileceği hale getiren Kaggle ve GitHub gibi web siteleri de var.
Ve ileriye giden yol…
Veri Bilimi alanına katkıda bulunan en büyük araştırma projelerinden, bilim adamlarından ve eğitimcilerden bazılarını tartıştık, peki sırada ne var? Hangi araçlar daha büyük bir rol oynayacak? Veri Bilimi topluluğu bundan sonra hangi sorunlara odaklanacak? Şirketler tüm bu araştırmaları ve keşifleri veriye dayalı karar verme sürecini güçlendirmek için nasıl kullanmaya çalışıyor? Bu soruların cevaplarını bilmek için, alandaki en son trendlere bakmak gerekir.
Verileri İşlemek için Bulut Altyapısını Kullanma
Veri toplama her geçen yıl büyüdü. Şirketler, üçüncü taraf kaynaklar veya sosyal medya verileri gibi yeni kaynaklar ekledi. Ancak zorluk, bu tür büyük veri kümelerinin temizlenmesi, normalleştirilmesi, işlenmesi ve biçimlendirilmesinde yatmaktadır. Bu kaynakların çoğu yarı veya yapılandırılmamış veriler ürettiğinden, bunların işlenmesi daha fazla kaynak gerektirir. Test verileri üzerinde bile algoritma çalıştırmak, yerel makinelerde (dizüstü bilgisayarlar) büyük bir zorluk olabilir.
AWS gibi bulut hizmeti sağlayıcılarının işletmelerinin milyarlarca dolara büyüdüğünü görmelerinin nedeni budur. AWS S3 gibi bulut hizmetleri, veri tasarrufu için son derece ucuz hizmetler sunar. Bunlar aynı zamanda ortaya çıkan ilk bulut hizmetlerinden bazılarıdır. Veri Depolama sadece bir başlangıçtır, işleme ve biçimlendirme ile ilgili daha yeni hizmetler de daha fazla kullanım alanı bulmuştur. Günümüzde veriye dayalı sistemler için hesaplama yapabilen ve verimli bir altyapı oluşturabilen Veri Mühendisleri, veri bilimcilerine göre daha fazla talep görmektedir.
Tüm bunlar, şirketlerin büyük veri ve bulut hizmetlerini kullanma şeklini değiştirdi. Verilerin kendisi, PromptCloud gibi DaaS (Hizmet Olarak Veri) sağlayıcıları tarafından bir hizmet olarak sunulmaktadır. Bu hizmetler, verilerin kazınması gereken web sitelerini ve gerekli veri noktalarını belirleyerek şirketlerin üçüncü taraf verilerine veya rakip verilerine erişmesine olanak tanır.
Nesnelerin interneti
Nesnelerin İnterneti yeni olmasa da, ancak şimdi daha fazla fiziksel cihaz birbiriyle konuşuyor. Buluta her zamankinden daha fazla cihaz bağlı ve sensörleri aracılığıyla toplanan tüm verileri toplayıp paylaşıyorlar.
Bu, makinelerin uzaktan teşhisi gibi yeni çağ çözümlerini mümkün kılıyor. Yazılım çözümleri, size farklı parça ve aksesuarların yaklaşık ömrünü vermek için sensör verilerini kullanabilir. Veriler, bir sistem çalışmayı durdurabileceği zaman bireyleri bilgilendirmeye yardımcı oluyor. Daha fazla veri toplandıkça ve derin öğrenme sihrini işledikçe, IoT'ye bağlı makineleri içeren daha iyi tahminler yapmak için daha fazla veri kullanacağız. Ayrıca, son birkaç yılda hızla büyüyen depolardaki robotlar dışında, IoT'nin endüstriyel düzeyde daha fazla kullanıldığını görmemiz olasıdır.
Daha Güçlü Doğal Dil İşleme
Yapay Zekanın bir alt kümesi olan NLP, insan diliyle ilgilenir. Siri'ye veya Alexa'ya güç veren şey budur. Yalnızca dilbilgisel kompozisyona odaklanmak yerine dillerin gerçek zamanlı olarak nasıl kullanıldığıyla ilgilenir. Bireylerin makineler ve yazılımlarla daha kolay etkileşime girebilmeleri için şirketlerin NLP'deki en son bulguları daha yeni ürünlerde kullanmaları bekleniyor. Bilgisayarınızla konuşacağınız ve sizin için görevleri yerine getireceği bir güne çok da uzak değiliz.
Sağlık hizmeti
Makine Öğrenimi ve Veri Bilimi, tıp bilimini büyük ölçüde etkilemiştir. Diyabet tespiti, kanser hücresi tanımlama, radyoloji ve patoloji gibi sorunları çözmek için uyguladık. Stanford tarafından yürütülen bir araştırma, AI'nın cilt kanserini doktorlar kadar iyi tanımlayabildiğini göstermiştir.
Önümüzdeki on yıl, birçok araştırma çalışmasının ve makalenin pratik kullanıma sunulduğunu görecek. Birden fazla atılım bekleyebiliriz-
- Hastalıkların daha ortaya çıkmadan tanımlanması ve öngörülmesi.
- Makineler tıbbi görüntüleri insanlardan daha verimli bir şekilde işleyebilir.
- COVID-19 gibi salgınları tahmin etmek.
- Smarter Health, akıllı saatler gibi çeşitli araçlar aracılığıyla kayıt yapar ve takip eder.
Aldığımız mesafe çok büyük! Bütün bir odayı dolduracak makinelere ihtiyaç duyan hesaplamaları bugün ayak tırnağı büyüklüğünde bir çip üzerinde yapabiliriz. Çip üretimindeki ilerlemenin yanı sıra daha hızlı internet ve veri aktarım hızları, veri biliminin ve gerçek yaşam uygulamalarının büyümesine doğrudan katkıda bulunmuştur. Veri biliminin geleceği, birden fazla sektöre ve kuruluşa bağlı olacak ve demokratik veri bilimi, herkes için düz bir alan yaratacaktır.
