기계 학습 문제 해결

게시 됨: 2017-11-01

목차 쇼

처음부터 무료 옵션을 찾고 계십니까?

기계 학습 훈련 데이터 세트를 구축할 때 어떤 요소를 고려해야 합니까?

개발 중인 알고리즘 유형 식별

빅데이터가 필요한 '만약'과 '언제'의 올바른 식별

결론적으로

머신 러닝의 공격적인 성장 궤적과 함께 점점 더 많은 데이터 과학자들이 실제 실제 응용 프로그램을 모방하는 결과를 얻는 데 집중하고 있습니다. 이를 위해 그들은 모델을 훈련하고 더 잘 '학습'하기 위해 훈련 데이터 세트에 의존합니다. 이 작업이 완료되면 테스트 데이터 세트를 사용하여 훈련되지 않은 실제 데이터를 통해 전달됩니다 . 따라서 기계 학습 훈련 데이터 세트 는 훈련 데이터 세트를 사용하여 MLP가 훈련된 데이터입니다.

훈련 데이터 세트와 테스트 데이터 세트 모두 대표적인 모집단 샘플에 맞추려고 합니다. 이렇게 하면 결과가 이 샘플에 보편적으로 적용될 수 있습니다. 한마디로 머신러닝 입니다 .

훈련 데이터에서 찾아야 할 것

처음부터 무료 옵션을 찾고 계십니까?

훈련 데이터 세트를 구축하기 위해 가치 있는 무료 데이터베이스 소스를 찾고 있다면 아래 옵션이 좋은 출발점이 될 수 있습니다.

UCI- 머신 러닝 리포지토리
Iris by UCI [3개의 클래스, 각 클래스에 대해 50개의 샘플, 총 150개의 데이터 포인트가 있습니다. 초보자를 위한 좋은 자료]
캐글
개방형 데이터 세트는 사물과 로봇이 더 똑똑하고 유용하도록 가르치는 데 도움이 됩니다.
R의 ML 벤치
미아스
뮬란
PromptCloud의 DataStock

기계 학습 훈련 데이터 세트를 구축할 때 어떤 요소를 고려해야 합니까?

1. 적정량

데이터 양에 대한 다음과 같은 기본 질문을 평가하고 이에 대한 답변을 준비해야 합니다.

데이터베이스에서 가져올 레코드 수
예상되는 성능 결과를 산출하는 데 필요한 샘플의 크기
학습 및 테스트를 위한 데이터 분할 또는 k-겹 교차 검증과 같은 대체 접근 방식 사용

2. 데이터 분할 접근 방식

모델을 구축하려면 데이터가 필요하고 모델을 테스트하려면 데이터가 필요합니다. 데이터세트를 이 두 부분으로 분할하는 방법이 있어야 합니다. 무작위 분할 또는 시간 기반 분할을 선택할 수 있습니다. 후자의 일반적인 경험 법칙은 오래된 데이터는 훈련용이고 최신 데이터는 테스트용이라는 것입니다. 일부 데이터 세트에는 계층화 샘플링 또는 클러스터 샘플링과 같은 다른 접근 방식이 필요합니다. 확실하지 않은 경우 소규모 파일럿을 수행하여 모델을 검증한 다음 전면적으로 본격적인 롤링을 수행합니다.

3. 과거 역사

많은 데이터 과학자들은 이미 과거에 문제를 해결하고 특정 모델링 요구 사항에 맞는 훈련 데이터 세트를 생각해 냈습니다. 적용된 기계 학습 문제에 대한 작업을 수행하면 올바른 데이터 세트를 더 쉽게 얻을 수 있을 뿐만 아니라 예상되는 결과에 대한 확신이 생깁니다.

현재 문제와 유사한 문제가 있는 연구를 확인하고 모델 구축 프로세스의 더 나은 효율성을 위해 데이터를 가져올 수 있습니다. 과거에 유사한 연구를 많이 수행할 만큼 운이 좋다면 건물 목적을 위해 평균을 낼 수 있습니다.

4. 도메인 전문성

'가비지 인 가비지 아웃' 철학은 머신 러닝을 위한 훈련 데이터 세트에 매우 유효합니다. 기계 학습 알고리즘은 사용자가 제공하는 모든 데이터에 대해 학습합니다. 따라서 입력으로 제공된 데이터의 품질이 좋으면 개발된 학습 알고리즘도 품질이 좋습니다. 일반적으로 공급하는 샘플은 독립성과 동일한 분포라는 두 가지 핵심 특성을 보유해야 합니다.

그리고 입력되는 것이 좋은 품질인지 어떻게 결정합니까? 단순한. 주제 전문가가 데이터를 통해 훈련된 한 쌍의 눈을 실행하도록 하십시오. 사용된 표본이 적절한지, 표본이 고르게 분포되어 있는지, 표본이 독립적인지 평가할 수 있습니다.

또한 전문가는 적용 범위와 보편적 적용 가능성의 기본 원칙을 손상시키지 않으면서 더 큰 풀을 얻을 수 있도록 데이터를 엔지니어링하는 데 도움을 줄 수 있습니다. 또한 현재 가지고 있지 않지만 기계 학습 프로그램을 교육하는 데 사용하려는 데이터를 시뮬레이션하는 데 도움을 줄 수 있습니다.

5. 올바른 종류의 데이터 변환

깨끗한 데이터를 처리한 후에는 기계 학습 교육 목표에 따라 데이터를 변환할 수 있습니다. 도메인 전문 지식과 알고리즘 기능은 훈련 데이터 세트를 강화하기 위해 적용할 올바른 종류의 변환을 결정하는 데 도움이 될 수 있습니다. 피쳐 엔지니어링의 이 단계는 데이터를 특정 유형의 분석에 가장 적합한 데이터로 변환하는 데 도움이 됩니다. 기능 엔지니어링은 아래 데이터 변환 프로세스 중 하나 이상으로 구성될 수 있습니다.

ㅏ. 스케일링 – 일반적으로 처리된 데이터 세트에는 무게(킬로그램 또는 파운드), 거리(킬로미터 또는 마일) 또는 통화(달러 또는 유로)와 같은 메트릭에 대해 다양한 스케일을 사용하는 속성이 있습니다. 훨씬 더 나은 결과를 얻으려면 척도의 변화를 줄여야 합니다. 이 기능 확장 단계는 데이터를 더 잘 분석하는 데 도움이 됩니다.

비. 분해 - 기능적 분해의 도움으로 복잡한 변수를 구성 요소로 세분화된 수준으로 분할할 수 있습니다. 이러한 개별 구성 요소에는 전체 기계 학습 구축 프로세스에서 증대될 수 있는 고유한 속성이나 특성이 있을 수 있습니다. 따라서 이러한 특성에 도달하기 위해 분할하는 것이 중요합니다. 훈련 데이터 세트를 구축하는 데 실제로 관심이 있는 요소 또는 구성 요소에서 '노이즈'를 분리하는 데 도움이 됩니다. 베이지안 네트워크 방법이 인과 관계 단층선을 따라 결합 분포를 분할하려는 방식은 작업에서 분해의 고전적인 예입니다.

씨. 집계 - 분해의 극단에 집계 방법이 있습니다. 유사한 속성을 특징으로 하는 여러 변수를 하나의 더 큰 엔터티로 결합합니다. 일부 기계 학습 데이터 세트의 경우 이는 특정 문제를 해결하기 위한 데이터 세트를 구축하는 더 합리적인 방법일 수 있습니다. 머신 러닝을 통해 특정 문제를 해결하기 위해 개별 응답을 확인하지 않고 집계 설문 응답을 추적하는 방법을 예로 들 수 있습니다.

개발 중인 알고리즘 유형 식별

선형 또는 비선형 알고리즘을 선택할 수 있습니다. 어떤 유형의 알고리즘을 실행하는지 알면 훈련 데이터 세트를 구축하는 데 필요한 데이터의 유형과 양을 더 잘 평가할 수 있습니다. 일반적으로 비선형 알고리즘이 더 강력한 것으로 간주됩니다. 그들은 입력과 출력 기능 사이의 비선형 관계에서 연결을 파악하고 설정할 수 있습니다.

전체 구조의 관점에서 이러한 비선형 알고리즘은 더 유연하고 비모수적일 수 있습니다(이러한 알고리즘은 필요한 매개변수의 수뿐만 아니라 특정 기계 학습 문제를 더 잘 해결하기 위해 이러한 매개변수에 어떤 값이 있어야 하는지도 결정할 수 있음). 비선형이기 때문에 높은 수준의 분산을 표시할 수 있음을 의미합니다. 즉, 알고리즘의 결과는 학습에 사용되는 데이터에 따라 달라질 수 있습니다.

이는 또한 비선형 알고리즘이 분석되는 서로 다른 엔터티 간의 복잡한 연결과 관계를 파악하기 위해 훈련 데이터 세트 내부에 훨씬 더 많은 양의 데이터가 필요함을 의미합니다. 잘 알려진 대부분의 기업은 시스템에 점점 더 많은 데이터가 입력됨에 따라 계속 개선되는 이러한 알고리즘에 관심이 있습니다.

빅데이터가 필요한 '만약'과 '언제'의 올바른 식별

훈련 데이터 세트 구축에 대해 이야기할 때 빅 데이터(매우 많은 양의 데이터)가 필요한지 여부를 현명하게 평가해야 합니다. 그렇다면 데이터 세트 생성의 어느 시점에서 빅 데이터를 가져와야 할까요? 비용 집약적일 뿐만 아니라 빅 데이터를 도입하면 데이터 세트 구축 시간에 상당한 영향을 미칠 수 있습니다. 그러나 절대적으로 피할 수 없는 경우 빅 데이터를 훈련 데이터 세트의 일부로 가져오기 위해 리소스를 투입해야 합니다.

전형적인 예는 전통적인 예측 모델링을 수행할 때입니다. 이 경우 수익률이 입력한 데이터의 양과 일치하지 않는 수익률 체감 지점에 도달할 수 있습니다. 이 장벽을 극복하려면 훨씬 더 많은 데이터가 필요할 수 있습니다. 선택한 모델과 당면한 특정 문제를 주의 깊게 평가하여 이 시점이 언제 도달하고 훨씬 더 많은 양의 데이터가 필요한지 파악할 수 있습니다.

결론적으로

훈련 데이터 세트를 구축하면 전체 기계 학습 모델의 품질이 향상됩니다. 이러한 요소를 사용하면 고성능 기계 학습 데이터 세트를 구축하고 이러한 우수한 교육 데이터 세트에서 '배운' 강력하고 의미 있고 정확한 기계 학습 모델의 이점을 얻을 수 있습니다.

머신 러닝을 위한 훈련 데이터 세트의 품질에 영향을 미칠 수 있는 다른 주요 요소를 공유하고 싶으신가요? 아래 의견에 작성하고 귀하의 생각을 알려주십시오.