機械学習の問題に取り組む

公開: 2017-11-01
目次を見る
そもそも無料のオプションをお探しですか?
機械学習トレーニング データセットを構築する際に考慮すべき要素は何ですか?
開発中のアルゴリズムのタイプを識別する
ビッグデータが必要な「場合」と「いつ」を正しく特定する
結論として

機械学習の積極的な成長軌道により、ますます多くのデータ サイエンティストが、実際の実用的なアプリケーションを模倣する結果を得ることに注力しています。 このために、彼らはトレーニング データセットに依存してモデルをトレーニングし、よりよく「学習」します。 これが完了すると、テストデータセットを使用して、トレーニングされていない実際のデータが渡されます。 したがって、機械学習トレーニング データセットは、トレーニング データセットを使用して MLP がトレーニングされたデータです。

トレーニング データセットとテスト データセットの両方が、代表的な人口サンプルに合わせようとします。 これにより、結果がこのサンプルに普遍的に適用されることが保証されます。 一言で言えば機械学習です

トレーニングデータで何を探すべきか

そもそも無料のオプションをお探しですか?

トレーニング データセットを構築するための貴重な無料データベース ソースを探している場合は、以下のオプションが出発点として最適です。

  1. UCI - 機械学習リポジトリ
  2. Iris by UCI [3 つのクラスがあり、各クラスに 50 のサンプルがあり、合計 150 のデータ ポイントがあります。 初心者向けの良いリソース]
  3. カグル
  4. オープンデータセットは、物やロボットに賢く、より便利であることを教えるのに役立ちます
  5. ML Bench by R
  6. MIAS
  7. ムーラン
  8. PromptCloud による DataStock

機械学習トレーニング データセットを構築する際に考慮すべき要素は何ですか?

1. 適切な量

データ量に関する次の基本的な質問を評価し、回答を用意する必要があります。

  • データベースから取得するレコードの数
  • 期待されるパフォーマンス結果を得るために必要なサンプルのサイズ
  • トレーニングとテストのためのデータの分割、または k 分割交差検証などの代替アプローチの使用

2.データ分割のアプローチ

モデルを構築するにはデータが必要であり、モデルをテストするにはデータが必要です。 データセットをこれら 2 つの部分に分割する方法が必要です。 ランダム分割または時間ベースの分割を選択できます。 後者では、一般的な経験則として、古いデータはトレーニング用で、新しいデータはテスト用です。 一部のデータセットには、層化サンプリングやクラスター サンプリングなどの他のアプローチが必要です。 本当に確信が持てない場合は、小規模なパイロットを行ってモデルを検証してから、全面的に本格的に展開してください。

3. 過去の歴史

多くのデータ サイエンティストは、過去に既に問題に取り組んでおり、特定のモデリング ニーズに合わせてトレーニング データセットを考え出しています。 応用機械学習の問題に取り組むことで、適切なデータ セットを取得しやすくなるだけでなく、期待される結果が確実になります。

現在の問題と同様の問題を抱えている研究をチェックアウトし、データを取得して、モデル構築プロセスの効率を高めることができます。 幸運にも、過去に多数の同様の調査を実施できた場合は、建物の目的のためにそれらを平均化することができます。

4. ドメインの専門知識

「ガベージ イン ガベージ アウト」の哲学は、機械学習のトレーニング データセットに非常に有効です。 機械学習アルゴリズムは、どんなデータを入力しても学習します。 したがって、入力として提供されるデータの品質が良ければ、開発される学習アルゴリズムも高品質になります。 通常、供給するサンプルは、独立性と同一分布という 2 つの重要な特性を備えている必要があります。

また、入力されているものが高品質であるかどうかをどのように判断しますか? 単純。 対象分野の専門家に、訓練された目でデータを調べてもらいます。 使用したサンプルが適切かどうか、サンプルが均等に分散されているかどうか、サンプルが独立しているかどうかを評価できます。

専門家は、カバレッジと普遍的な適用性の基本原則を損なうことなく、より大きなプールを取得できるようにデータをエンジニアリングすることもできます. また、現在持っていないが、機械学習プログラムのトレーニングに使用したいデータをシミュレートするのにも役立ちます。

5.正しい種類のデータ変換

クリーンなデータを処理したら、機械学習トレーニングの目的に基づいて変換できます。 ドメインの専門知識とアルゴリズムの機能/関数は、トレーニング データセットをパワーアップするために適用する適切な種類の変換を決定するのに役立ちます。 特徴量エンジニアリングのこのステップは、データを特定のタイプの分析に最適なデータに変換するのに役立ちます。 特徴量エンジニアリングは、以下のデータ変換プロセスの 1 つ以上で構成できます。

を。 スケーリング– 通常、処理されたデータセットには、重量 (キログラムまたはポンド)、距離 (キロメートルまたはマイル)、または通貨 (ドルまたはユーロ) などのメトリックにさまざまなスケールを使用する属性があります。 より良い結果を得るには、スケールの変動を減らす必要があります。 機能スケーリングのこのステップは、データをより適切に分析するのに役立ちます。

b. 分解– 機能分解の助けを借りて、複雑な変数をその構成部分への粒度レベルに分割できます。 これらの個々の構成要素には、機械学習の構築プロセス全体で強化できるいくつかの固有のプロパティまたは特性がある場合があります。 したがって、これらの特性に到達するために分割することが重要です。 トレーニング データセットを構築するために実際に関心のある要素またはコンポーネントから「ノイズ」を分離するのに役立ちます。 ベイジアン ネットワーク法が共同分布をその因果断層線に沿って分割しようとする方法は、作業中の分解の典型的な例です。

c. 集約– 分解の極端な反対は、集約の方法です。 類似した属性を持つ複数の変数を 1 つの大きなエンティティに結合します。 一部の機械学習データセットでは、これが特定の問題を解決するためのデータセットを構築するためのより賢明な方法である場合があります。 一例として、機械学習を通じて特定の問題を解決するために、個々の回答を見るのではなく、集計された調査回答を追跡する方法が考えられます。

開発中のアルゴリズムのタイプを識別する

線形アルゴリズムまたは非線形アルゴリズムを使用できます。 実行しているアルゴリズムのタイプがわかれば、トレーニング データセットの構築に必要なデータのタイプと量をより適切に評価できます。 通常、非線形アルゴリズムはより強力であると考えられています。 入力フィーチャと出力フィーチャの間の非線形関係を把握し、接続を確立することができます。

全体的な構造に関しては、これらの非線形アルゴリズムは柔軟性が高く、ノンパラメトリックである可能性があります (このようなアルゴリズムは、必要なパラメーターの数だけでなく、特定の機械学習の問題をより適切に解決するために、これらのパラメーターに存在する値を決定することもできます)。 これは非線形であるため、高度な分散を表示できることを意味します。つまり、アルゴリズムの結果は、トレーニングに使用されているデータに基づいて変化する可能性があります。

これはまた、非線形アルゴリズムでは、分析対象のさまざまなエンティティ間の複雑な接続と関係を把握するために、トレーニング データセット内にさらに大量のデータが必要であることを意味します。 よく知られている企業のほとんどは、システムに入力されるデータが増えるにつれて改善し続けるアルゴリズムに関心を持っています。

ビッグデータが必要な「場合」と「いつ」を正しく特定する

トレーニング データセットの構築について話すときは、ビッグ データ (非常に大量のデータ) が必要かどうかを賢く評価する必要があります。 もしそうなら、データセット作成のどの時点でビッグデータを取り込めばよいでしょうか。 ビッグデータの導入は、コストがかかるだけでなく、データセット構築の市場投入までの時間に大きな影響を与える可能性があります。 ただし、どうしても避けられない場合は、トレーニング データ セットの一部となるビッグ データを取得するためのリソースを配置する必要があります。

典型的な例は、従来の予測モデリングを実行する場合です。 この場合、収量が入力したデータの量に対応しなくなる、収穫逓減点に到達する可能性があります。 この障壁を克服するには、さらに多くのデータが必要になる場合があります。 選択したモデルと手元にある特定の問題を慎重に評価することで、いつこの時点に到達し、いつ大量のデータが必要になるかを把握できます。

結論として

トレーニング データセットを構築すると、機械学習モデル全体の品質が向上します。 これらの要因により、高性能の機械学習データセットを構築し、そのような優れたトレーニング データセットから「学習」した、堅牢で意味のある正確な機械学習モデルのメリットを確実に得ることができます。

機械学習のトレーニング データセットの品質に影響を与える可能性のあるその他の主要な要因を共有することに興味がありますか? 以下のコメントに書いて、あなたの考えを教えてください.