데이터 프로파일링과 데이터 마이닝의 차이점
게시 됨: 2019-09-25데이터 마이닝은 오늘날 기계 학습, 웹 스크래핑 및 인공 지능 세계에서 트렌드 주제입니다. 데이터 프로파일링은 상대적으로 드문 주제이며 웹에서 상대적으로 덜 존재하는 주제입니다. 데이터 프로파일링과 데이터 마이닝의 차이점이 무엇인지 생각하고 계십니까?
데이터 마이닝은 수집한 데이터에서 패턴을 찾거나 특정 데이터 포인트에서 결론을 도출하는 것을 말합니다. 수집된 모든 데이터(CSV 파일의 행과 열)에 관한 것입니다. 그러나 데이터 프로파일링은 데이터 세트에서 추출할 수 있는 메타데이터에 관한 것이고 이 메타데이터를 분석하여 데이터 세트가 더 잘 사용될 수 있는 용도를 찾습니다.
오늘 언급된 두 주제는 모두 중요하며 모범 사례와 함께 수많은 단계와 절차를 포함하므로 이에 대해 더 자세히 설명하겠습니다.
데이터 프로파일링이란
데이터 프로파일링은 우리 손에 있는 데이터 세트에서 데이터 또는 메타데이터를 찾는 것이지만 세 가지 유형의 메타데이터로 더 세분화할 수 있습니다.
- 관계형 정보는 대규모 데이터세트에서 찾을 수 있습니다. 10개의 테이블이 있는 데이터 세트가 있다고 가정합니다. 다른 테이블의 값을 변경하여 관련 테이블과 해당 테이블이 변경될 데이터를 찾을 수 있습니다.
- 메타데이터는 콘텐츠에서도 검색할 수 있습니다. 이는 일반적으로 데이터 오류, 누락된 필드 등과 관련됩니다. 예를 들어 데이터의 50% 이상에서 특정 필드가 비어 있는 경우 분석을 수행할 때 해당 데이터 포인트를 포기해야 할 수 있습니다.
- 구조 정보는 당사 데이터에서도 발견할 수 있습니다. 이 정보는 다양한 유형일 수 있습니다. 데이터 세트의 통계적 평균, 중앙값 또는 최대값이 될 수 있습니다. 도시 가정에서 수집한 데이터 포인트의 백분율과 도시에서 수집한 백분율일 수도 있습니다. 요컨대, Excel 시트 내부로 이동하여 모든 행을 확인할 필요 없이 데이터가 어떻게 보이는지에 대해 많은 것을 알려줍니다.
우리가 논의한 다양한 유형의 메타데이터는 원시 데이터 자체보다 현재 데이터에 대해 훨씬 더 많은 정보를 제공합니다. 이 정보는 데이터가 프로세스에 적합한 위치와 데이터를 사용하기에 가장 좋은 위치를 찾는 데 사용할 수 있습니다. 데이터 청결도 또는 누락된 데이터의 비율도 이 메타데이터에서 식별할 수 있으며 이에 따라 데이터를 사용할 수 있도록 변경할 수 있습니다. 데이터 포인트 및 테이블 내에서 발견된 관계는 중복 검사 등을 설정하는 데 사용할 수도 있습니다.
데이터 프로파일링의 모범 사례
우리가 데이터와 메타데이터, 그리고 우리가 할 수 있는 모든 것에 대해 논의하는 동안, 업계 표준과 모범 사례, 즉 메타데이터를 사용하는 방법과 살펴볼 메타데이터에 대한 포인터와 참조가 있습니다. 모범 사례와 일반적인 방법론에서 벗어나면 잘못된 방향을 가리키는 결과를 얻을 수 있습니다. 방법론 및 모범 사례 중 일부는 다음과 같습니다.

- 데이터 포인트 간의 관계 – SQL과 같은 쿼리 언어를 사용할 때 관련 데이터를 쉽게 추출할 수 있도록 저장해야 합니다. 자동차 제조업체의 테이블을 구문 분석하고 특정 제조업체가 현재까지 판매한 모든 자동차의 마력을 찾고 싶다고 가정해 보겠습니다. 이러한 정보는 제조사 테이블, 자동차 테이블, 자동차 사양 테이블 간의 관계가 잘 정의되어 있어야 쉽게 도출할 수 있습니다.
- 데이터 포인트 검사 – Null, 공백 및 오류가 채워진 데이터 포인트의 식별입니다. 데이터베이스를 선택하는 모든 사람이 처음부터 이러한 제약 조건을 인식할 수 있도록 데이터 세트와 함께 저장해야 합니다.
- 통계 데이터 포인트 – 특정 경우에 중요할 수 있는 통계 값을 나타냅니다. 데이터베이스의 모든 열에 대한 평균, 중앙값, 모드, 최대, 최소, 빈도 등과 같은 값을 나타냅니다.
- 패턴 – 데이터에는 다양한 패턴이 존재합니다. 예를 들어 열을 체크아웃할 때 예 또는 아니오로만 구성되어 부울 열임을 알 수 있습니다. 하나는 남성일 수도 있고 여성일 수도 있습니다. 따라서 범주형 데이터입니다. 또한 정규식 일치를 사용하여 특정 열이 핀 코드, 주소, 이름, 나이, 이메일 주소 또는 전화번호인지 식별할 수도 있습니다. 이러한 모든 정보는 데이터베이스를 읽는 모든 사람이 데이터 구조를 더 잘 이해할 수 있도록 별도로 캡처해야 합니다.
데이터 마이닝이란
데이터 마이닝은 통계, 웹 스크래핑, 데이터 추출, 기계 학습 및 데이터베이스 시스템에 의존하는 학제 간 주제입니다. 이 방대한 적용 범위로 인해 인체의 암세포를 식별하는 과학자부터 월별 목표를 달성하려는 영업 팀에 이르기까지 모든 사람이 사용합니다.
그러나 데이터 마이닝 자체는 데이터 검색, 전처리, 후처리, 시각화 등과 같은 여러 단계로 구성되며 이에 대해 논의합니다. 많은 단계가 있지만 데이터에서 패턴을 찾는 실제 프로세스는 일반적으로 자동 또는 반자동이며 주로 어떤 알고리즘이 어떤 데이터 세트에 잘 맞는지 찾는 것을 포함합니다.
다시 말하지만, 이 시점에서 주목해야 할 중요한 점은 데이터 마이닝이 데이터 분석과 매우 다르다는 것입니다. 전자는 숨겨진 패턴을 발견하기 위해 주로 기계 학습 및 통계 모델을 사용하는 반면, 후자는 데이터 세트에 대한 모델 및 가설을 테스트하는 데 사용됩니다.
데이터 마이닝과 관련된 단계
데이터 마이닝과 관련된 일반적인 단계는 다음과 같습니다.
- 비즈니스 문제를 이해합니다.
- 데이터를 보다 명확하게 파악합니다.
- 데이터를 정리하고 모델링을 위해 준비합니다.
- 데이터에서 ML 또는 통계 모델 만들기
- 테스트 환경에서 모델을 평가하고 성능을 검토합니다.
- 솔루션을 배포하고 제품 환경에서 성능을 검토합니다.
- 전처리, 데이터 마이닝 및 결과 집합 유효성 검사로 구성된 대부분의 비즈니스에서는 단순화된 프로세스를 따르는 경우가 많습니다.
결론
데이터 정리 및 데이터 준비와 같은 특정 단계가 두 주제에서 유사하다는 것을 눈치채셨을 것입니다. 데이터 처리에는 항상 데이터로 무엇을 하든 따라야 하는 몇 가지 보편적인 "모범 사례"가 포함됩니다. 데이터는 대부분의 비즈니스 프로세스에 대한 입력이 되었으며 출력 결과 지능적인 정보가 되었습니다. 그러나 데이터를 수집하는 것 자체가 엄청난 노력입니다. 그것이 PromptCloud가 존재하는 이유입니다. 우리의 데이터 스크래핑 팀은 소규모 가족 기업 및 스타트업에서 Fortune 500의 선두주자에 이르기까지 다양한 기업에 적합한 DaaS 솔루션을 제공합니다.
