教師ありと教師なしの機械学習手法 – PromptCloud

公開: 2017-10-21

目次を見る

教師ありおよび教師なし ML 手法

教師あり機械学習

線形回帰

ランダムフォレスト

サポートベクターマシン

教師なし機械学習

K-means クラスタリング

アプリオリアルゴリズム

結論

教師あり学習 vs 教師なし学習 :

一般に、インテリジェントなアルゴリズムを使用してデータからパターンを発見することは、機械学習の中心的な概念です。これらの発見は、多くの場合、実用的な洞察、さまざまなトレンドの予測につながり、企業が競争力を獲得したり、時には新しい革新的な製品を強化したりするのに役立ちます. 最近、機械学習の概念と機械学習アルゴリズムのトレーニング方法について、このブログ投稿で説明しました。さまざまな種類の ML アルゴリズムとそのしくみについては詳しく説明しなかったため、この記事では、予測を行うために「学習」する方法に基づく機械学習アルゴリズムの分類について説明します。

教師ありと教師なしの機械学習アルゴリズム

大まかに言うと、機械学習の手法には、教師ありと教師なしの 2 種類があります。それらが互いにどのように異なっているかを見てみましょう。

教師ありおよび教師なし ML 手法

前述したように、教師ありおよび教師なし ML 手法は、機械学習アルゴリズムが予測を行うために学習する「方法」を表しています。

教師あり学習では、ML アルゴリズムの作成者は、マシンから期待される明確に定義された出力を持っています。入力とそれぞれの出力は事前定義されており、ML アルゴリズムは、時間の経過とともにより高い精度で入力に基づいて出力を提供する技術を完成させることのみを学習します。

教師あり学習は、教師と一緒に学習するようなものでもあります。この場合の教師は、機械学習システムに提供されるトレーニングデータセットです。

教師と一緒に学んでいる間、生徒は何が何を表しているかを教えられます。たとえば、犬を他の動物と区別するのに役立つ、次のような犬の特徴を子供に教えることができます。

顔の形（ロング）
彼らはどのように聞こえるか (樹皮)
本体サイズ（小～中）
その他の特徴（犬はしっぽをよく振る）

このデータを使用して、子供はさまざまな犬種を識別できるはずです。新しい未知の犬種を発見するたびに、探すべき特徴がより多くのデータで更新されます。たとえば、パグは他のほとんどの犬種のように長い顔をしていませんが、犬です。これは教師あり学習です。これは、私たちが最初に子供に探すための一連の特性を与え、彼が経験を積んでそれを完成させたからです。

ただし、教師なし学習の場合、子供は独力です。彼は、何が何であるかについてのヒントなしに、さまざまな動物を単に提示されます。彼は、観察された特徴に基づいて動物をグループ化することにより、さまざまな動物を識別することを学びます。これは簡単に言えば、教師なし機械学習です。

簡単に言えば、教師あり学習は、期待される結果を伴うデータに基づく機械学習ですが、教師なし機械学習の場合、ML システムはデータからパターンを識別することを学習します。

教師あり機械学習

機械学習の実用的なアプリケーションのほとんどは、教師あり学習を使用しています。教師あり学習では、入力変数 (x) と出力変数 (Y) を定義し、アルゴリズムが入力を出力にマッピングする方法を学習できるようにします。

これは、Y = f(X) として定義できます。

アイデアは、このマッピングでマシンを完全にすることです。これにより、マシンに投入された新しい入力データに対して出力変数 (Y) を正確に予測できるようになります。アルゴリズムは、許容レベルの精度を達成すると、学習アクティビティを遅くします。

教師あり学習は、さらに分類問題と回帰問題に分類できます。

分類: 分類問題には、大、小、中、または「赤」または「緑」などのカテゴリである出力変数があります。

回帰: 回帰問題では、出力変数は「キログラム」や「ドル」などの実際の値です。

一般的な教師あり機械学習アルゴリズムの一部は次のとおりです。

線形回帰

回帰アルゴリズムは、主に数値変数間の統計的依存関係を検出することを目的としています。線形回帰モデルは基本的に、データ表現に最適な線形近似を見つけようとします。この近似が成功すると、独立変数の任意の値に対する従属変数の値を簡単に予測できます。このように、アルゴリズムを使用して、入力データセット内の任意の 2 つの数値列間の依存関係を判断できます。たとえば、線形回帰を使用して、過去のデータを入力として使用して翌年の売上を予測したり、季節的な傾向に基づいて Web サイトを訪問する人数を予測したりできます。

ランダムフォレスト

ランダムフォレストは、すべてのデータサイエンスアルゴリズムのスイスアーミーナイフのようなものです。簡単に言うと、問題の特定のアルゴリズムが思い浮かばない場合は、ランダムフォレストを使用します。ランダムフォレストは、機能グループ内のデータポイントのクラスタリングに使用される教師あり機械学習アルゴリズムの別の例です。これは、すべての変数を考慮してデータを手動でクラスター化することが困難になるため、変数の数が多い大規模なデータセットに特に役立ちます。

この機械学習アルゴリズムは、汎用性があるため、回帰タスクと分類タスクの両方に使用できます。また、次元削減法を処理し、欠損値、外れ値、およびその他の多くのデータ探索方法を処理することもできます。ランダムフォレストは、弱いモデルのグループを組み合わせて強いモデルとして機能させるアンサンブル学習手法です。

サポートベクターマシン

サポートベクターマシンは、回帰または分類の問題に使用できるもう 1 つの教師あり機械学習アルゴリズムです。 SVM では、各データ項目は n 次元空間 (n は使用する機能の数) の点としてプロットされ、各機能の値は特定の座標の値になります。次に、2 つのクラスを最適な方法で区別する超平面を識別することによって、分類が実行されます。

SVM は通常、スパムの検出、感情分析、カテゴリ割り当てなどのテキスト分類を含むタスクに使用されます。また、色ベースの分類と側面ベースの認識が重要な側面である画像認識プロジェクトにも役立ちます。もう 1 つの注目すべきアプリケーションは、郵便サービスの自動化に役立つ手書きの数字認識です。

教師なし機械学習

教師なし機械学習では、入力データ (X) のみがあり、対応する出力変数は定義されていません。ここでの考え方は、モデルに制限を加えることなく、データの根底にある分布または構造を明らかにすることです。教師なし機械学習モデルでは、教師がいないのと同じように正解はありません。アルゴリズムは、データ内の興味深い構造を発見して提示するために独自に残されています。

教師なし学習は、クラスタリングとアソシエーションの問題にさらにグループ化できます。

クラスタリング: クラスタリングの課題では、基本的に、顧客を買い物行動によってグループ化するなど、データ内の基になるグループ化を発見しようとしています。

関連付け: 関連付けの問題では、iPhone を購入した人はバッテリーパックも購入する傾向があるなど、データの大部分を定義するルールを特定することが目標です。

教師なしアルゴリズムの一般的な例は次のとおりです。

K-means クラスタリング

K-means クラスタリングは教師なし機械学習アルゴリズムであり、データがラベル付けされていない状況 (未定義のグループまたはカテゴリを持つデータ) で使用されます。このアルゴリズムは、グループの数が変数 K で示されるデータ内のグループを識別することを目的としています。次に、特徴の類似性に基づいてデータポイントをクラスター化します。

簡単に言えば、K-means クラスタリングは、ラベルのないデータから未定義のグループを明らかにします。これは、大規模で複雑なデータセットからビジネス上の仮定を確認する場合に特に役立ちます。アルゴリズムが実行され、グループが定義されると、新しいデータポイントを正しいグループに簡単に追加できます。

アプリオリアルゴリズム

Apriori は、関連するアソシエーションルールとアイテムセットのマイニングに使用される古典的な教師なしマシンアルゴリズムです。店舗で顧客が購入した商品など、トランザクション数が多いデータベースに展開するのに最適です。

アプリオリの原則は、調査する必要があるアイテムセットの数を削減します。この原則は、項目セットが頻繁でない場合、そのサブセットもいずれも頻繁に発生しないことを示しています。アプリオリアルゴリズムは、アソシエーションルールベースの機械学習に非常に適しているため、小売企業で広く使用されています。

アソシエーションルールに基づく学習の興味深い結果は、ビールおむつの話から理解できます。ある小売店がデータを分析したところ、金曜日の午後におむつを購入した若いアメリカ人男性はビールも購入する傾向があることがわかりました。彼らは先に進み、ビールの島をおむつの島の近くに配置したところ、予想通り、ビールの売り上げが伸びました。

これはおそらく、子育てが大変で、両親がストレスを解消するために無分別にビールを飲むようになったことを示しています. とにかく、この話は機械学習における連想規則の完璧な例です。

結論

機械学習は、企業がかつてないレベルの効率を達成し、新しい技術革新への道を開くのを支援しています。 Web で利用できるデータは、分刻みで量と質が増加しているため、機械学習テクノロジは、これらのデータセットから画期的な洞察を明らかにすることで信頼できます。自由に使えるデータの真の可能性を解き放ちたいと考えている場合、これらの機械学習手法に精通することが不可欠であることがわかります.

教師ありと教師なしの機械学習手法 – PromptCloud

教師ありおよび教師なし ML 手法

教師あり機械学習

線形回帰

ランダムフォレスト

サポート ベクター マシン

教師なし機械学習

K-means クラスタリング

アプリオリアルゴリズム

結論

サポートベクターマシン