품질 데이터의 부재가 AI의 성장을 제한합니까?
게시 됨: 2020-12-23AI의 미래는 품질 데이터의 손에 달려 있습니다
조금 터무니없게 들리지 않습니까? 미래는 사람의 손에 달려 있지 않습니까? 그러나 머신 러닝과 인공 지능의 성장을 살펴보면 오늘날 인간과 기계가 생성하는 방대한 양의 데이터에 최신 혁신이 편승되어 있음을 알 수 있습니다. 자율주행차, 자연어처리 등 최신 혁신에 활용되고 있는 신경망과 딥러닝 알고리즘의 성장은 데이터의 양과 질적 성장이 있었기에 가능했던 일이다. 데이터가 적으면 거의 모든 AI 알고리즘이 유사한 결과를 생성하지만 페타바이트의 데이터가 있으면 딥 러닝 알고리즘이 빛나는 것을 볼 수 있습니다.

인간은 제한된 양의 데이터만 생산할 수 있으며, 빅데이터 혁명 은 주로 인터넷에 연결되고 더 많은 데이터를 생산하는 기기가 늘어남에 따라 발생했습니다. IoT 혁명은 그 어느 때보다 많은 데이터를 생성했습니다. 인간은 그렇게 방대한 데이터를 분석할 수 없으며, 이는 결국 딥 러닝의 기반이 되었습니다.
데이터의 세 가지 주요 문제
최첨단 AI 프로젝트를 위한 데이터를 수집할 때 수량만이 유일한 문제는 아닙니다. 얼마나 많은 데이터를 가지고 있든 알고리즘에서 최상의 결과를 얻으려면 데이터의 품질, 청결도 및 다양성이 중요합니다.
ㅏ). 수량
수천 행의 데이터만으로 자율주행차를 위한 알고리즘을 만들려고 하면 장애물에 부딪힐 수밖에 없습니다. 알고리즘이 실제 시나리오에서 적절한 결과를 생성하는지 확인하려면 수많은 훈련 데이터에 대해 알고리즘을 훈련해야 합니다. 웹에서 거의 무한한 데이터 스트림과 함께 오늘날 거의 모든 장치에서 로그에 액세스할 수 있는 기능 덕분에 데이터를 수집하는 것은 그리 어렵지 않습니다. 올바른 도구가 있고 사용 방법을 알고 있는 한.
비). 다양성
AI를 사용하여 실제 문제를 해결하기 위해 알고리즘을 훈련할 때 시스템은 가능한 모든 다양한 데이터 포인트를 이해해야 합니다. 다양한 데이터를 얻을 수 없는 경우 시스템에 고유한 편향이 있고 잘못된 결과가 생성됩니다.
미국의 The Literary Digest가 실시한 유명한 1936년 대통령 투표 를 포함하여 그러한 일이 여러 번 발생 했습니다. 예상했던 대선 후보는 대선에서 20%가 넘는 압도적인 격차로 승리했다. 그러나 이 잡지는 1천만 명의 개인을 대상으로 설문조사를 실시했으며 그 중 227만 명이 응답했습니다 . 이는 오늘날 기준으로 보아도 천문학적인 수치입니다. 일이 어디에서 잘못 되었습니까?

글쎄, 그들은 국가가 대공황에 빠졌을 때 잡지를 구독할 여유가 없는 사람들과 함께 단순히 응답하지 않는 훨씬 더 많은 비율의 독자들의 감정을 이해하는 데 실패했습니다.
씨). 품질
마지막 두 가지 요소는 정말 중요하고 약간의 노력으로 계속 확인할 수 있지만 데이터 품질은 결과가 일치하지 않더라도 놓치기 쉽고 감지하기 어렵습니다. 데이터가 부정확하다는 것을 알 수 있는 유일한 방법은 데이터가 생산에 들어간 후 데이터를 다시 분석하는 것입니다.
데이터 품질을 유지하는 몇 가지 간단한 방법은 중복을 제거하고, 들어오는 각 행의 스키마를 검증하고, 각 행에 입력되는 값을 계속 확인하기 위해 특정 엄격한 제한을 두고, 이상값도 추적하는 것입니다. 자동화를 통해 특정 요소를 확인할 수 없는 경우 수동 개입도 필요할 수 있습니다. 오류가 발생할 수 있는 주요 지점은 데이터 변환 입니다. 특히 여러 소스에서 데이터를 누적하는 경우 모든 데이터 포인트의 단위가 동일하지는 않습니다. 적절한 방정식을 사용하여 값을 변환하는 것은 필수이며 전체적으로 구현해야 합니다.
웹에서 스크랩한 데이터는 정형, 반정형 및 비정형 데이터 로 구성될 수도 있으며, AI 프로젝트에서 이러한 다양한 형태의 데이터를 사용하려면 모든 데이터를 다음으로 변환해야 합니다. 같은 형식.
데이터 품질은 AI 프로젝트에 어떤 영향을 미칩니까?
데이터 품질은 모든 기계 학습 또는 AI 프로젝트에 영향을 줄 수 있습니다. 프로젝트가 얼마나 방대한지에 따라 데이터의 단순한 실수라도 장기적으로 잘못된 결과를 초래할 수 있습니다. 추천 엔진을 생성하고 훈련 데이터가 충분히 깨끗하지 않은 경우 추천은 사용자에게 그다지 의미가 없습니다.
그러나 부정확한 데이터가 이러한 결과에 영향을 미쳤는지 파악하기 어려울 수 있습니다. 마찬가지로, 예측 알고리즘을 설계하고 데이터에 특정 결함이 있는 경우 일부 예측은 여전히 양호하지만 일부는 상당히 빗나갈 수 있습니다. 더티 데이터가 가져온 차이를 실현하기 위해 점을 연결하는 것은 재현하기 매우 어려울 수 있습니다.

모든 AI 프로젝트는 단계적으로 성장합니다. 초기 알고리즘 결정이 내려집니다 . 즉, 데이터 세트와 특정 사용 사례가 주어지면 어떤 알고리즘이 가장 잘 작동할지 결정됩니다. 데이터에 불일치가 있는 경우 알고리즘 선택 자체가 난감해질 수 있으며 오랜 시간이 지나야 이 오류를 깨닫지 못할 수 있습니다.
모델이 실제 세계에서 작동하는지 확인하는 유일한 방법은 깨끗한 데이터가 AI 시스템에 공급되도록 하고 점점 더 많은 데이터에서 계속 테스트하는 것입니다. 또한 강화 학습을 사용하여 모델이 이탈할 때 경로를 수정할 수 있습니다.
웹 스크래핑이 해결책이 될 수 있습니까?
웹 스크래핑은 솔루션이 될 수 있지만 파이프라인을 통해 들어오는 데이터의 다양성과 양이 프로젝트에 사용되기 전에 철저하게 정리, 검증 및 검증되도록 하기 위해 여러 다른 도구와 함께 사용하는 경우에만 가능합니다. 사내 또는 유료 소프트웨어를 사용하여 웹에서 데이터를 가져오는 웹 스크래핑 도구 를 사용하더라도 도구가 데이터를 준비하기 위해 데이터에 대해 이러한 후처리 작업을 수행할 가능성은 거의 없습니다. 사용.
당신에게 필요한 것은 최종 출력이 플러그 앤 플레이 형식으로 비즈니스 워크플로에 직접 통합될 수 있도록 데이터 스크랩, 정리, 유효성 검증 및 검증을 처리하는 종단 간 시스템입니다. 그러한 시스템을 처음부터 구축하는 것은 기초부터 시작하여 산을 오르는 것만큼 어렵습니다.
PromptCloud 의 우리 팀 은 웹 스크래핑 서비스를 제공합니다. 즉, 귀하가 요구 사항을 제공하고 우리는 DaaS(Data-as-a-Service) 모델인 데이터를 제공합니다. 당신이 해야 할 일은 데이터(당신이 선택한 형식과 저장 매체에 있을 것입니다)에 접근하고 그것을 당신의 현재 시스템과 통합하는 것입니다. 우리는 여러 웹사이트에서 데이터를 스크랩할 뿐만 아니라 다양한 수준에서 여러 검사를 사용하여 우리가 제공하는 데이터가 깨끗한지 확인합니다. 이 데이터는 다양한 분야의 고객이 AI 및 머신 러닝과 같은 최첨단 기술을 사용하여 다양한 프로세스를 간소화하고 고객을 더 잘 이해할 수 있도록 지원합니다.
