今日の世界におけるデータサイエンティストとそのデータサイエンスの方法
公開: 2022-05-19データサイエンスは、人間が作ったデータや機械が作ったデータそのものと同じように、飛躍的に成長した分野です。 これにより、数学や生命科学などのさまざまな分野から、データを問題解決のツールとして取り上げる人が増えています。 アルゴリズムは、数値やテキストの処理をはるかに超えています。 現在、画像、動画、音声など、ほぼすべてのデータ形式を処理しています。 これにより、企業はより広範な非構造化データにアクセスできるようになりました。 データ ソースも成長しており、現在、ソーシャル メディア データは、個人のプロファイリングを試みる多くの企業にとって重要なソースの 1 つとなっています。 これらすべては、すでに指数関数的に増加している構造化データの上にあります。
地球上を歩いた最も有名なデータ サイエンティスト
データ サイエンスには大規模な発見があり、今後さらに多くのことが期待できます。 私たちは、データ サイエンスにおける革新的な発見が行われ、実際の問題を解決するために使用されている分岐点にいます。 最初からの最大の発見と調査結果のいくつかを見ることは価値があります.
アラン・チューリング
アラン・チューリングは、おそらく最も有名なデータ サイエンティストの 1 人です。 彼は、人工知能と理論的コンピューター サイエンスの父と見なされています。
映画「イミテーション・ゲーム」で一躍有名に。 しかし、エニグマ (第二次世界大戦中のドイツの暗号装置) を破るために使用された電気機械装置であるボンベの彼の発明は、彼の唯一の発見ではありませんでした。 彼の研究は、数学的シナリオ全体を計算できる史上初のマシンの作成につながりました。 マシンのパイロット モデルのクロック速度は 1MHz で、当時最速のコンピューターでした。 冷戦中、彼の研究は航空機の動きを計算するためにも使用されました。
彼はまた、コンピューターが人間のように考えて行動できるかどうかを判断するための一連のルールであるチューリング テストを作成しました。 機械がどれだけ人間を模倣できるかに基づいて、合格率が計算されます。 現在、さまざまなバリエーションのテストを使用していますが、最も一般的なのは Captcha です。 Captcha は、人間が機械ではないことを証明する必要がある逆チューリング テストです。
アレックス・クリジェフスキー
2012 年は、ディープ ラーニング (人工ニューラル ネットワークを使用してビッグ データから特徴を抽出する機械学習の一分野) にとって重要な年であることが証明されました。 クリジェフスキーはニューラル ネットワークをこれまでにないレベルまで強化しました。 彼は、Imagenet 競争のエラー率を半分 (ほぼ 15%) に減らすアルゴリズムである「Alexnet」を設立しました。 ImageNet チャレンジは、個人が何百ものカテゴリにわたって何百万ものオブジェクトを分類する必要がある場所です。
彼のアルゴリズムは、ほぼ 75% の精度で猫を検出し、YouTube ビデオから 80% 以上の精度で顔を検出できました。 セキュリティ システム上で動作する顔認識ソフトウェアや、現在携帯電話のロックを解除するために使用しているソフトウェアは、すべてこの男に起因する可能性があります。 医用画像は、画像検出にニューラル ネットワークを使用したおかげで、大きな後押しを得たもう 1 つの分野です。
イアン・グッドフェロー
Ian Goodfellow は、2 種類のモデルを持つことができる Generative Adversarial Networks (GAN) を世界に紹介しました。
- ジェネレーター モデルは、データでトレーニングされると、同じタイプの新しい例を作成しようとします。
- 識別モデルは、本物のコンテンツと偽の (生成された) コンテンツを分類しようとします。
残念ながら、ジェネレーター モデルは今日、DeepFakes として最もよく知られているもので広く悪用されています。 多くの人が人気者の信じられないほどのスピーチをインターネットに投稿していますが、これらはすべて DeepFakes であることが後で判明しました。 ラップトップとインターネット接続があれば、ほとんどの人が既存のビデオからまったく新しいビデオを作成し、スピーカーに絶対に何でも言わせることができるワームの缶が開かれました。 プレイ中の人工知能は、既存のビデオから学習し、顔の表情、声、話し方を自動的に模倣することができます。
このアルゴリズムは、これまで他のマシン コードが侵入しなかった領域、つまり人間の創造性に侵入しました。 絵画を作成し、(存在しない) 顔を生成できます。 GAN によって作成された絵画は、オークションで 40 万ドルもの価格で落札されています。 アドビのような企業は、状況が手に負えなくなってきているため、偽のコンテンツを見つけるための新しい手法を考え出しました. GAN は現在の AI シーンに影響を与えただけでなく、将来的にはより根本的な発見を引き起こす可能性があります。

セバスチャン・スラン
ほとんどの人は、自動運転車を大衆が真に利用できるようにした最初の会社であるテスラについて聞いたことがあるに違いありませんが、セバスチャン・スランの名前を聞いたことがある人はほとんどいないでしょう。 自動運転車の父として広く知られている Thrun は、2005 年に国防総省が開催した自動運転車のコンテストで優勝しました。また、Udacity を立ち上げて教育をより身近なものにするために退職する前に、Google 無人車プロジェクトを立ち上げて実行しました。 しかし、彼のロボット工学への取り組みはずっと前に始まり、1997 年にボンのドイツ博物館の最初のロボット ツアー ガイドを作成しました。 彼はまた、CMU やスタンフォードのような複数の主要な AI ラボとも関係があります。
アンドリュー・ング
オープンソース コミュニティとアンドリュー ング (Coursera の共同創設者) のようなデータ サイエンティストの両方から、大衆がデータ サイエンスにアクセスできるようにするために多大な貢献がありました。 Google は 2015 年に TensorFlow を無料で使用できるようにし、Facebook は 2016 年に PyTorch でそれに続きました。Python などの言語 (Scikit Learn や Pandas など) のカスタム ライブラリにより、誰でも数時間で非常に簡単に使い始めることができます)。
Andrew のようなコースは、数学のバックグラウンドを持たない個人が AI アルゴリズムの仕組みを理解するのに役立ちました。 Kaggle や GitHub などの Web サイトもあり、AI の問題、データセット、ソリューションにインターネット上の誰でも簡単にアクセスできます。
そして進むべき道…
データ サイエンスの分野に貢献した最大の研究プロジェクト、科学者、教育者のいくつかについて説明しましたが、次に何が待ち受けているのでしょうか? より大きな役割を果たすツールはどれですか? データ サイエンス コミュニティが次に注目している問題はどれですか? 企業は、このすべての調査と発見をどのように活用して、データ駆動型の意思決定を強化しようとしていますか? これらの質問に対する答えを知るには、この分野の最新の傾向に目を向ける必要があります。
クラウド インフラストラクチャを使用してデータを処理する
データ収集は年々増加しています。 企業は、サードパーティ ソースやソーシャル メディア データなどの新しいソースを追加しました。 ただし、課題は、そのような大規模なデータセットのクリーニング、正規化、処理、およびフォーマットにあります。 これらのソースの多くは半構造化データまたは非構造化データを生成するため、それらを処理するにはより多くのリソースが必要になります。 テスト データに対してアルゴリズムを実行することは、ローカル マシン (ラップトップ) では大きな課題であることが判明する可能性があります。
これが、AWS のようなクラウド サービス プロバイダーがビジネスを数十億ドルにまで成長させた理由です。 AWS S3 のようなクラウド サービスは、データを保存するための非常に安価なサービスを提供します。 これらは、誕生した最初のクラウド サービスの一部でもあります。 データ ストレージは始まりに過ぎません。処理とフォーマットを扱う新しいサービスも、より多くの用途を見出しています。 今日、データ駆動型システムの効率的なインフラストラクチャを計算および作成できるデータ エンジニアは、データ サイエンティストと比較して需要が高まっています。
これらすべてが、企業がビッグデータとクラウド サービスを使用する方法を変えました。 データ自体は、PromptCloud などの DaaS (Data as a Service) プロバイダーによってサービスとして提供されています。 これらのサービスにより、企業は、データをスクレイピングする必要がある Web サイトと必要なデータ ポイントを指定することで、サード パーティのデータまたは競合他社のデータにアクセスできます。
モノのインターネット
モノのインターネットは新しいものではありませんが、ますます多くの物理デバイスが相互に通信するようになったのは最近のことです。 かつてないほど多くのデバイスがクラウドに接続され、センサーを介して収集されたすべてのデータが収集および共有されています。
これにより、機械のリモート診断などの新時代のソリューションが可能になります。 ソフトウェア ソリューションでは、センサー データを使用して、さまざまな部品やアクセサリのおおよその寿命を知ることができます。 データは、システムが機能しなくなる可能性があるときに個人に通知するのに役立ちます。 より多くのデータが収集され、ディープ ラーニングが魔法のように機能するにつれて、より多くのデータを使用して、IoT に接続されたマシンに関するより良い予測を行うようになります。 また、ここ数年で急増した倉庫内のロボットを除けば、産業レベルでの IoT の使用率が高まる可能性もあります。
より強力な自然言語処理
人工知能のサブセットである NLP は、人間の言語を扱います。 それが Siri または Alexa の原動力です。 文法構成だけに焦点を当てるのではなく、リアルタイムで言語がどのように使用されるかを扱います。 企業は、個人がマシンやソフトウェアとより簡単にやり取りできるように、NLP の最新の調査結果を新しい製品に使用することが期待されています。 コンピューターに話しかけて、コンピューターがタスクを実行してくれる日もそう遠くありません。
健康管理
機械学習とデータ サイエンスは、医学に大きな影響を与えてきました。 糖尿病の検出、がん細胞の識別、放射線学、病理学などの問題を解決するためにそれを適用しました。 スタンフォード大学が実施した研究によると、AI は医師と同じように皮膚がんを識別できることが示されています。
今後 10 年間で、多くの研究や論文が実用化されるでしょう。 複数のブレークスルーが期待できます–
- 病気が発生する前に、病気を特定して予測します。
- 機械は、人間よりも効率的に医用画像を処理できます。
- COVID-19 などのアウトブレイクの予測。
- スマートウォッチなどの複数の手段によるよりスマートな健康記録と追跡。
私たちがカバーした距離は巨大です! 今日の足の爪のサイズのチップで、部屋全体を満たすマシンを必要とする計算を実行できます。 チップ製造の進歩、およびインターネットとデータ転送速度の高速化は、データ サイエンスとその実際のアプリケーションの成長に直接貢献しています。 データ サイエンスの未来は、複数のセクターや組織に依存するものであり、民主的なデータ サイエンスは、すべての人にとって平等な分野を生み出すでしょう。
