데이터 정규화의 중요성

게시 됨: 2021-02-04
목차
데이터 정규화란 무엇입니까?
데이터를 정규화하지 않으면 어떻게 됩니까?
데이터 정규화의 이점
상황이 얼마나 나빠질 수 있습니까?

기업은 항상 데이터를 사용하여 최고를 유지했습니다. 기업이 오프라인 매장에서 일할 때 데이터 세트가 더 작았기 때문에 이러한 데이터 크런칭의 대부분은 오프라인이었습니다. 더 많은 회사가 비즈니스를 온라인으로(또는 적어도 일부) 이전함에 따라 데이터 세트의 크기가 증가하여 이제 최대 테라바이트 및 페타바이트 크기에 도달했습니다. 이러한 데이터세트는 다음으로 구성됩니다.

ㅏ). 제품 세부 정보, 직원 정보, 파트너 계약, 창고 재고 업데이트 등이 포함될 수 있는 내부 데이터

비). GPS 센서, 스마트 로봇, 추적 센서 및 디지털 트윈과 같은 IoT 장치의 데이터

씨). 웹에서 스크랩한 경쟁사 데이터와 같은 외부 데이터

서로 다른 소스의 데이터가 모두 같은 모양과 형식으로 되어 있지 않을 수 있습니다. 텍스트, 오디오, 비디오 및 표 형식의 데이터를 가질 수 있습니다. 그것들을 모두 하나의 구조화된 형식으로 변환한 후에는 모두 동일한 헤더를 가지고 있지 않다는 것을 알게 될 것입니다. 그렇더라도 단위는 동일하지 않을 수 있습니다. 데이터에 중복 행이 있을 수도 있습니다.

데이터 정규화란 무엇입니까?

이러한 모든 데이터 문제를 함께 처리하면 데이터 정규화라고 통칭됩니다. 주로 서로 다른 소스에서 수집된 데이터를 재구성하여 함께 사용하는 데 도움이 됩니다. 또한 비즈니스 팀의 데이터 가독성을 향상시켜 데이터 시각화를 생성하는 데 더 많은 플러그 앤 플레이 방식을 제공합니다.

데이터 정규화는 각 단계가 다른 데이터 소스에 대해 다른 단계로 더 분할될 수 있는 여러 단계를 포함할 수 있습니다. 가장 일반적인 데이터 정규화 기술 또는 단계에는 다음이 포함됩니다.

ㅏ). 중복 항목 제거

비). 논리적 그룹화 방법론을 기반으로 데이터 그룹화

씨). 관련 데이터 포인트 간의 연결 생성

디). 충돌하는 데이터 항목 해결

이자형). 다른 데이터 세트를 단일 형식으로 변환

에프). 반정형 또는 비정형 데이터를 키-값 세트로 변환

g). 여러 소스의 데이터 통합

시간). 열의 모든 행을 동일한 단위로 변환

나). 큰 숫자 값이 있는 열을 10의 거듭제곱으로 나누기

제이). 범주형 열에 숫자 값 할당

이러한 노력은 일반적으로 데이터 품질을 향상시키고 이러한 데이터 세트가 결국 사용되는 비즈니스 워크플로에 필요한 처리를 줄이는 데 도움이 됩니다. 이러한 프로세스는 이름, 주소, 전화번호, 핀 코드, 통화 값, 두 지점 사이의 거리 등과 같은 다양한 유형의 필드를 처리하는 데 사용할 수 있습니다. 모든 회사는 데이터 스트림에 들어가는 모든 데이터 세트가 정규화되는 표준 형식 및 규칙 세트를 정의합니다.

원시 데이터는 제자리에 있는 일련의 표준화 규칙에 따라 다양한 방식으로 처리될 수 있습니다. 데이터 표준화의 몇 가지 예가 아래 표에 나와 있습니다.

원시 데이터 정규화된 데이터
25 사우스 파크 25 사우스 파크
수석 부사장 광고 광고 수석 부사장
1센티미터 1cm
1피트 30.48cm
남성/여성/기타 M/F/O
$25 ₩1,850,000

데이터를 정규화하지 않으면 어떻게 됩니까?

Gartner에서 수행한 연구에 따르면 모든 비즈니스 노력의 거의 40%가 열악한 데이터 품질로 인해 손실됩니다 . 잘못된 데이터 또는 잘못된 형식의 데이터는 비즈니스 프로세스의 여러 단계에 영향을 미치고 운영 효율성과 위험 관리를 손상시킵니다. 데이터 기반 결정이 잘못된 데이터를 기반으로 하는 경우 데이터를 유리하게 사용할 수 있는 기업의 능력이 손상됩니다. 비즈니스 의사 결정에 빅 데이터를 사용하는 이점은 표준화할 수 없고 다양한 데이터 소스에 맞출 수 없을 때 상실됩니다.

사용 가능한 데이터의 주요 적 중 하나는 누락되거나 손상된 데이터(모든 데이터 요소가 올바르게 표시되지 않을 수 있는 행)입니다. 이러한 문제는 원시 데이터의 잘못된 처리 또는 소스 데이터의 불일치로 인해 발생할 수 있습니다. 데이터를 사용할 수 없게 만드는 또 다른 주요 데이터 문제는 사용 가능한 비트로 분류되지 않는 비정형 데이터의 양입니다.

데이터 정규화
그림: 정규화하는 것을 잊은 데이터가 많을수록 사용할 수 없는 데이터의 비율이 높아집니다.

Priceonomics의 한 연구에 따르면 회사에서 수집한 데이터의 최대 55%가 사용되지 않습니다 . 기업에서 수집한 미사용 데이터를 특정 제약으로 인해 사용할 수 없게 된 것을 다크 데이터라고 합니다. 데이터의 많은 부분을 사용할 수 없는 이유를 묻는 질문에 응답자의 66%는 "누락되거나 깨진 데이터"를 대답으로 선택한 반면 25%는 구조화되지 않은 형식에 대해 불평을 선택했습니다.

기업이 내부 및 외부 소스에서 데이터를 계속 집계함에 따라 순 데이터 크기는 계속 증가하고 있습니다. 오늘날 대부분의 회사는 AWS 또는 GCP와 같은 서비스를 통해 클라우드 스토리지 서비스를 사용하고 있으며 인프라 청구액이 얼마나 큰지 잊어버리기 쉽습니다. 대부분의 서비스는 저장된 데이터의 크기가 아니라 수행하는 쿼리에 따라 비용을 청구하지만 여전히 다음 세 가지 사항을 고려해야 합니다.

ㅏ). 데이터 볼륨이 증가함에 따라 쿼리는 점점 더 많은 데이터를 구문 분석해야 하며 실행하는 데 더 오래 걸립니다.
비). 쿼리 실행 시간이 오래 걸리므로 동시에 여러 쿼리를 실행하면 시간 초과 오류가 발생할 수 있습니다.
씨). 모든 쿼리에 대해 파싱되는 데이터의 양이 증가함에 따라 클라우드 서비스에 대한 비용이 꾸준히 증가할 것입니다.

데이터 정규화의 이점

Data Normalization의 가장 큰 장점 중 하나는 Data Segmentation을 구현할 수 있다는 것입니다. 데이터 세분화는 다양한 내부 팀에서 보다 쉽게 ​​사용할 수 있도록 다양한 매개변수를 기반으로 데이터를 그룹화하는 기능입니다. 데이터는 고객의 성별, 위치(도시 또는 시골), 산업 유형 등과 같은 다양한 요인에 따라 분류될 수 있습니다.

데이터
그림: 공통 데이터 처리 워크플로

대규모 데이터 세트, 특히 여러 데이터 소스를 결합하여 컴파일된 데이터 세트에서 데이터 분할을 구현하는 것은 어려운 작업일 수 있습니다. 데이터가 이미 정규화되었다면 몇 배는 더 쉬울 것입니다. 이를 통해 얻을 수 있는 이점은 다음과 같습니다.

ㅏ). 데이터가 정규화되고 세분화되면 깨끗하지 않거나 깨진 데이터를 필터링할 필요 없이 여러 팀에서 다른 데이터를 가져올 수 있습니다.

비). 기업은 세분화된 데이터를 사용하여 타겟팅된 광고 및 마케팅 접근 방식을 사용하여 제한된 마케팅 예산으로 더 나은 전환율을 얻을 수 있습니다.

씨). 세분화된 데이터는 기업이 결과와 고객 피드백을 분석하고 무엇이 옳은지, 무엇이 실패했는지 이해하는 데 도움이 될 수 있습니다. 이 정보는 소비되거나 테이블에 남아 있는지 여부에 따라 회사를 만들거나 깨뜨릴 수 있습니다.

고객 행동을 예측하고 이상 징후를 감지하는 것은 대량의 데이터를 분석하고 예측 모델을 생성하려는 대기업의 주요 목표 중 일부입니다. 정규화와 표준화를 거쳐 원시 데이터 자체를 저장한다면 이러한 노력을 크게 최소화할 수 있습니다. 데이터 과학 팀이 새로운 기계 학습 모델을 작업 중이든 비즈니스 팀이 Netflix와 비교할 만한 추천 시스템을 구축하기 위해 작업하든 관계없이 깨끗하고 정규화된 데이터는 출발점으로 절대적으로 필요합니다.

상황이 얼마나 나빠질 수 있습니까?

데이터 정규화는 여러 팀이 동일한 데이터 소스를 사용하거나 데이터를 통해 서로 통신할 때 유용할 수 있습니다. 데이터 소스의 수가 많고 관련된 팀과 개인의 수가 많을수록 비정규화된 데이터의 위험이 높아집니다. 정규화되지 않은 데이터에 발생한 주요 역사적 사건 중 하나는 엔지니어가 값을 영국식에서 미터법으로 변환하지 못하여 손실된 1억 2,500만 달러의 화성 탐사선 이었습니다. 균일성을 유지하기 위한 단위 변환은 핵심 데이터 정규화 기술 중 하나로 남아 있습니다.

귀하의 손실은 그렇게 높은 가치를 설명하지 못할 수도 있지만 복잡한 데이터로 인해 발생하는 손실을 계산하지 못할 수도 있습니다. 데이터를 사용할 수 없는 주요 원인 중 하나로 서서히 스며들 것입니다. 간접적으로 회사에서 사용하지 않는 데이터의 비율은 데이터를 정규화하려는 노력을 기울이지 않아 손실을 의미합니다.

데이터의 정규화와 표준화에 대해 많이 이야기했지만 데이터를 제대로 가져오는 것 자체가 작업의 절반입니다. 외부 소스에서 데이터를 깔끔하게 스크랩 하면 정규화에 대한 노력을 크게 줄일 수 있습니다. PromptCloud의 우리 팀은 기업이 웹 스크래핑 요구 사항을 제공할 수 있는 DaaS(서비스로서의 데이터) 솔루션을 고객에게 제공하는 것을 자랑스럽게 생각하며 데이터를 플러그 앤 플레이 형식으로 제공합니다. 우리는 여러 웹사이트에서 데이터를 스크랩하고 서로 다른 컨테이너 또는 다른 API를 통해 각각의 데이터를 제공할 수 있습니다. 이 작업이 완료되면 데이터 정규화 모듈을 작성하여 데이터를 집계하고 강화할 수 있으므로 팀에서 데이터 기반 결정을 내릴 수 있습니다.