지도 및 비지도 기계 학습 기술 – PromptCloud
게시 됨: 2017-10-21지도 학습 vs 비지도 학습:
지능형 알고리즘을 사용하여 데이터에서 패턴을 발견하는 것은 일반적으로 기계 학습의 핵심 개념입니다. 이러한 발견은 실행 가능한 통찰력, 다양한 트렌드 예측으로 이어지며 기업이 경쟁 우위를 확보하거나 때로는 새롭고 혁신적인 제품을 강화하는 데 도움이 됩니다. 우리는 최근 이 블로그 게시물 에서 기계 학습의 개념과 기계 학습 알고리즘을 훈련하는 방법을 설명했습니다 . 다양한 유형의 ML 알고리즘과 작동 방식에 대해 자세히 알아보지 않았기 때문에 이 게시물을 작성하여 예측을 '학습'하는 방식에 따라 기계 학습 알고리즘의 분류를 설명합니다.

높은 수준에서 기계 학습 기술에는 감독 및 비지도의 두 가지 광범위한 유형이 있습니다. 그들이 어떻게 다른지 살펴 보겠습니다.
감독 및 비감독 ML 기술
이전에 언급했듯이 지도 및 비지도 ML 기술은 기계 학습 알고리즘이 예측을 학습하는 '방법'을 나타냅니다.
지도 학습에서 ML 알고리즘의 작성자는 기계에서 예상되는 잘 정의된 출력을 가지고 있습니다. 입력과 해당 출력은 미리 정의되어 있으며 ML 알고리즘은 시간이 지남에 따라 더 높은 정확도로 입력을 기반으로 출력을 제공하는 기술을 완벽하게 학습합니다.
지도 학습은 또한 교사와 함께 학습하는 것과 같습니다. 이 경우 교사는 기계 학습 시스템에 제공되는 훈련 데이터 세트입니다.
교사와 함께 배우는 동안 학생은 무엇을 나타내는지 듣습니다. 예를 들어, 다음과 같이 다른 동물과 구별하는 데 도움이 되는 개의 뚜렷한 특성을 아이에게 가르칠 수 있습니다.
- 얼굴형(긴)
- 소리(짖)
- 본체 사이즈(소~중)
- 기타 특정 특성(개는 꼬리를 자주 흔든다)
이 데이터로 아이는 다양한 종류의 개를 식별할 수 있어야 합니다. 새롭고 알려지지 않은 개 품종을 발견할 때마다 찾아야 할 특성이 더 많은 데이터로 업데이트됩니다. 예를 들어, 퍼그는 대부분의 다른 개 품종과 달리 긴 얼굴을 가지고 있지 않지만 개입니다. 이것은 우리가 처음에 아이에게 찾아야 할 특성 세트를 제공하고 경험을 통해 완벽하게 만들었기 때문에 감독 학습입니다.
그러나 감독되지 않은 학습의 경우 아이는 혼자입니다. 그는 무엇이 무엇인지에 대한 힌트 없이 단순히 다양한 동물과 함께 제시됩니다. 그는 관찰된 특성을 기반으로 그룹화하여 다양한 동물을 식별하는 방법을 배웁니다. 이것은 간단히 말해서 감독되지 않은 기계 학습입니다.
간단히 말해서 지도 학습은 예상된 결과가 있는 데이터를 기반으로 하는 기계 학습인 반면, 지도 학습이 없는 기계 학습의 경우 ML 시스템은 데이터에서 패턴을 식별하는 방법을 스스로 학습합니다.
지도 머신 러닝
기계 학습의 대부분의 실제 응용 프로그램은 지도 학습을 사용합니다. 지도 학습에서는 입력 변수(x)와 출력 변수(Y)를 정의하고 알고리즘이 입력을 출력에 매핑하는 방법을 학습하도록 합니다.
이것은 Y = f(X)로 정의할 수 있습니다.
아이디어는 이 매핑에서 기계를 완벽하게 만들어 사용자가 던진 새 입력 데이터에 대해 출력 변수(Y)를 정확하게 예측할 수 있도록 하는 것입니다. 알고리즘은 허용 가능한 수준의 정확도에 도달하면 학습 활동을 느리게 합니다.
지도 학습은 분류 및 회귀 문제로 추가로 그룹화할 수 있습니다.
분류 : 분류 문제에는 큰, 작은, 중간 또는 "빨간색" 또는 "녹색"과 같은 범주인 출력 변수가 있습니다.
회귀 : 회귀 문제에서 출력 변수는 "킬로그램" 또는 "달러"와 같은 실제 값입니다.

인기 있는 지도 머신 러닝 알고리즘 중 일부는 다음과 같습니다.
선형 회귀
회귀 알고리즘은 주로 수치 변수 간의 통계적 종속성을 감지하기 위한 것입니다. 선형 회귀 모델은 기본적으로 데이터 표현에 가장 적합한 선형 근사치를 찾으려고 합니다. 이 근사가 성공하면 독립 변수 값에 대한 종속 변수 값을 쉽게 예측할 수 있습니다. 이런 식으로 알고리즘을 사용하여 입력 데이터 세트의 두 숫자 열 간의 종속성을 결정할 수 있습니다. 예를 들어, 선형 회귀를 사용하여 과거 데이터를 입력으로 사용하여 다음 해의 판매를 예측하거나 계절적 추세를 기반으로 웹사이트를 방문할 사람들의 수를 예측할 수 있습니다.
랜덤 포레스트
Random Forest는 모든 데이터 과학 알고리즘의 스위스 군용 칼과 거의 비슷합니다. 간단히 말해서 문제에 대한 특정 알고리즘이 생각나지 않으면 임의 포리스트로 이동합니다. 랜덤 포레스트는 기능 그룹의 데이터 포인트를 클러스터링하는 데 사용되는 지도 머신 러닝 알고리즘의 또 다른 예입니다. 이것은 모든 변수를 고려하여 데이터를 수동으로 클러스터링하기 어려워지기 때문에 변수 수가 많은 대규모 데이터 세트에 특히 유용합니다.
다재다능한 특성으로 인해 이 기계 학습 알고리즘은 회귀 및 분류 작업 모두에 사용할 수 있습니다. 또한 차원 축소 방법을 처리하고 결측값, 이상값 및 기타 여러 데이터 탐색 방법을 처리할 수 있습니다. 랜덤 포레스트(Random Forest)는 약한 모델 그룹을 결합하여 강력한 모델로 작동하는 앙상블 학습 방법입니다.
서포트 벡터 머신
Support Vector Machines는 회귀 또는 분류 문제에 사용할 수 있는 또 다른 지도 머신 러닝 알고리즘입니다. SVM에서 각 데이터 항목은 n차원 공간(n은 가지고 있는 기능의 수)의 한 점으로 표시되며 각 기능의 값은 특정 좌표의 값입니다. 그런 다음 두 클래스를 가장 잘 구별하는 초평면을 식별하여 분류를 수행합니다.
SVM은 일반적으로 스팸 감지, 감정 분석 및 범주 할당과 같은 텍스트 분류와 관련된 작업에 사용됩니다. 또한 색상 기반 분류 및 측면 기반 인식이 중요한 측면인 이미지 인식 프로젝트에서도 유용합니다. 또 다른 주목할만한 응용 프로그램은 우편 서비스 자동화에 유용한 필기 숫자 인식입니다.
비지도 머신 러닝
비지도 머신 러닝에서는 입력 데이터(X)만 있고 해당하는 출력 변수가 정의되어 있지 않습니다. 여기서 아이디어는 모델에 제한을 두지 않고 데이터의 기본 분포 또는 구조를 드러내는 것입니다. 비지도 머신 러닝 모델에는 교사가 없는 것처럼 정답이 없습니다. 알고리즘은 데이터에서 흥미로운 구조를 발견하고 제시하기 위해 독자적으로 남겨집니다.
비지도 학습은 클러스터링 및 연관 문제로 더 그룹화할 수 있습니다.
클러스터링 : 클러스터링 챌린지에서는 기본적으로 쇼핑 행동에 따라 고객을 그룹화하는 것과 같이 데이터에서 기본 그룹화를 발견하려고 합니다.
연관 : 연관 문제에서 목표는 iPhone을 구입한 사람들이 배터리 팩도 구입하는 경향이 있는 것과 같이 데이터의 많은 부분을 정의하는 규칙을 식별하는 것입니다.
비지도 알고리즘의 인기 있는 예는 다음과 같습니다.
K-평균 클러스터링
K-평균 클러스터링은 보유한 데이터에 레이블이 지정되지 않은 상황(정의되지 않은 그룹 또는 범주가 있는 데이터)에서 사용되는 비지도 머신 러닝 알고리즘입니다. 알고리즘은 그룹 수가 변수 K로 표시되는 데이터에서 그룹을 식별하기 위한 것입니다. K-평균은 제공된 기능을 기반으로 K 그룹 중 하나에 각 데이터 포인트를 할당하여 작동합니다. 그런 다음 기능 유사성을 기반으로 데이터 포인트를 클러스터링합니다.
간단히 말해서, K-평균 클러스터링은 레이블이 지정되지 않은 데이터에서 정의되지 않은 그룹을 나타냅니다. 이는 크고 복잡한 데이터 세트에서 비즈니스 가정을 확인하는 데 특히 유용합니다. 알고리즘이 실행되고 그룹이 정의되면 새 데이터 포인트를 올바른 그룹에 쉽게 추가할 수 있습니다.
선험적 알고리즘
Apriori는 관련 연관 규칙 및 항목 집합을 마이닝하는 데 사용되는 고전적인 감독되지 않은 기계 알고리즘입니다. 상점에서 고객이 구매한 항목과 같이 트랜잭션이 많은 데이터베이스에 배포하는 것이 이상적입니다.
선험적 원칙은 검사해야 하는 항목 집합의 수를 줄입니다. 원칙에 따르면 항목 집합이 자주 발생하지 않으면 하위 집합도 자주 발생하지 않습니다. 연관 규칙 기반 기계 학습에 특히 좋은 선험적 알고리즘은 소매 회사에서 널리 사용됩니다.
연관 규칙 기반 학습의 흥미로운 결과는 맥주 기저귀 이야기에서 이해할 수 있습니다. 한 소매점에서 데이터를 분석하여 금요일 오후에 기저귀를 구매한 젊은 미국 남성도 맥주를 구매하는 경향이 있음을 발견했습니다. 그런 다음 그들은 맥주 섬을 기저귀 섬 가까이에 배치했고 예상대로 맥주 판매가 증가했습니다.
이것은 아마도 자녀 양육이 힘들 수 있고 부모가 스트레스를 풀기 위해 경솔하게 맥주로 눈을 돌릴 수 있음을 나타냅니다. 어쨌든 이 이야기는 기계 학습의 연관 규칙에 대한 완벽한 예입니다.
결론
기계 학습은 기업이 전례 없는 수준의 효율성을 달성하고 새로운 기술 혁신을 위한 길을 열도록 지원합니다. 웹에서 사용할 수 있는 데이터는 매 분마다 양과 질이 증가하고 있으므로 머신 러닝 기술은 이러한 데이터 세트에서 획기적인 통찰력을 발견함으로써 신뢰할 수 있습니다. 데이터의 진정한 잠재력을 활용하려는 경우 이러한 기계 학습 기술에 익숙해지는 것이 필수적입니다.
