빅 데이터 생태계에서 데이터 과학자의 가치 향상

게시 됨: 2016-10-15
목차
수동
자동화
데이터 과학자가 제공하는 가치에 더 많은 것을 추가하는 방법

거의 모든 산업 분야에 대한 빅 데이터의 엄청난 범위와 영향력은 알려져 있지 않습니다. 빅 데이터를 사용하면 거대하고 복잡한 것처럼 보이는 커뮤니케이션, 댓글 및 브랜드 언급이 세분화된 수준에서 분석됩니다. 이 연습의 목적은 지금까지 회사의 의사 결정권자의 관점에서 숨겨져 있었던 통찰력을 찾는 것입니다. 아메리칸 익스프레스의 경우를 보자. 이 카드 회사의 거물은 공격적인 성장 계획을 앞당기기 위해 단순한 후행 지표 이상을 가져오기를 원했습니다. 이로 인해 AmEx는 최대 115개의 변수를 사용 하는 복잡하지만 강력한 예측 모델을 구축하는 데 투자했습니다 . 운동의 목적은? 빅 데이터의 도움으로 고객 간의 브랜드 충성도를 높이고 고객 이탈을 줄이는 방법을 찾습니다.

데이터 과학

이 예측 분석은 빅 데이터(정형 및 비정형)에서 지식이나 통찰력을 추출하는 데 도움이 되는 분야인 데이터 과학 의 한 형태 입니다. 데이터 과학의 다른 구현에는 통계 분석, 데이터 마이닝 , 데이터 엔지니어링, 확률 모델, 시각화 및 기계 학습이 포함됩니다. 데이터 과학은 데이터 분석 및 데이터 마이닝도 포함하는 더 큰 경쟁 인텔리전스 영역의 일부입니다.

차세대 데이터 과학자의 생산성 향상에 대한 살펴보기

IBM의 Big Data Evangelist인 James Kobielus는 차세대 데이터 과학자의 생산성을 향상시킬 수 있는 다양한 방법을 강조한 흥미로운 기사 를 작성했습니다. 이는 차례로 세계 경제, 금융 및 사회의 재산에 영향을 미칠 수 있습니다.

그는 상시 가동되는 비즈니스 환경에 가치를 제공하는 데 있어 데이터 과학자가 수행하는 미션 크리티컬한 역할을 인정했습니다. 그들의 가치는 데이터를 분석하고 이해 관계자가 의사 결정 프로세스를 수행하는 데 도움이 되는 의미 있는 통찰력을 생성하는 데 도움이 되는 다양한 반복 가능한 솔루션 통합에 걸쳐 있습니다.

빅 데이터

데이터 과학자의 생산성 향상이 필수적인 이유

데이터 과학자는 전체 빅 데이터 생태계 내에서 다양한 역할과 책임을 수행합니다. 여기에는 다음과 같은 작업이 포함됩니다.

  1. 수동

  • 통계 모델 설계 및 개발
  • 이러한 모델의 성능 분석
  • 실제 데이터로 모델 확인
  • 비데이터 전문가(이해관계자 및 의사결정자)가 이해할 수 있는 방식으로 통찰력을 전달하는 어려운 작업 수행
  1. 자동화

  • 클라이언트 비즈니스 및 정보 수집에 대한 개시, 브레인스토밍 및 연구
  • 데이터 검색
  • 데이터 프로파일링
  • 데이터 샘플링 및 구성

명백한 바와 같이, 이러한 작업에는 한 개인에게서 찾을 수 없는 일련의 인적 자본 전문 지식이 필요합니다. 다양한 틈새 분야의 전문가들로 구성된 팀을 구성해야 합니다. 더 중요한 것은 데이터 과학자 팀을 구성한다는 비즈니스 목표가 정치 없이 우호적으로 충족되도록 조정되어야 한다는 것입니다. 그리고 이는 팀 내 모든 사람이 따라야 하는 강력한 프로세스 및 프로토콜 집합을 통해 달성할 수 있습니다.

그러나 이러한 프로토콜을 설정하고 시행한다고 해서 반드시 데이터 과학자의 생산성이 떨어지는 것은 아닙니다. James는 복잡한 팀 환경 내에서 데이터 과학자의 최적의 생산성을 보장하기 위해 다양한 프로세스가 설정된 실제 사례를 살펴봅니다. 그가 이 맥락에서 구체적으로 언급한 한 가지 예는 O'Reilly의 Ben Lorica입니다. 이 기사에서는 데이터 과학자에게 생산성 측면에서 다음과 같은 이점을 제공하려고 합니다.

  • 데이터 분석 및 시각화 도메인의 다양한 기본 및 하위 단계를 처리하는 데 사용할 수 있는 기성 API 제공. 머신 러닝 처리의 엔드 투 엔드 프로세스를 간소화하면 프로젝트의 모든 단일 마일스톤에서 시간과 비용 절감을 기하급수적으로 개선하는 데 도움이 될 수 있습니다. 그리고 이러한 감소는 조직의 기존 시스템에 소프트웨어를 온보딩하는 데 드는 비용보다 훨씬 많습니다.
  • 멀티미디어(오디오, 비디오, 콘텐츠)와 같은 데이터 유형은 스트리밍 미디어 및 인지 계산에서 중추적인 역할을 합니다. 자동화된 기계 학습을 사용하면 이러한 유형의 데이터를 쉽게 흡수하고 분석할 수 있습니다. Ben은 음성 및 컴퓨터 비전용 샘플 파이프라인과 다른 유형의 데이터용 데이터 로더를 사용할 것을 제안합니다.
  • 응용 프로그램은 통계 및 예측 모델의 교육, 사용 및 완성도를 빠르게 추적하는 데 도움이 될 수 있습니다. 이러한 확장 가능한 기계 학습 알고리즘의 예로는 Spark 기반 런타임이 있습니다.
  • 데이터 과학자의 생산성은 다기능 기계 학습 프로젝트의 처리 파이프라인을 현명하게 확장하여 향상될 수도 있습니다. 이러한 구성 요소의 예로는 라이브러리 및 최적화 프로그램을 통합하고 로드하는 것이 있습니다. 이러한 구성 요소의 다른 인스턴스에는 다양한 배열의 데이터 로더 , 기능화기 및 메모리 할당기가 포함됩니다.

또한 기계 학습 프로젝트의 효율성을 확인하는 데 도움이 되도록 오류 범위를 설계, 명확하게 정의 및 설정하는 방법에 대해 설명합니다. 이러한 노력을 통해 사전 정의된 벤치마크와 비교하여 실제 성능을 측정할 수 있습니다. 또한 예상 결과에서 모델의 실제 성능이 크게 전환되는 경우 모델을 미세 조정하는 데 도움이 될 수 있습니다.

이는 데이터 과학자의 생산성을 높이기 위해 전 세계적으로 다양한 조직에서 진행 중인 노력의 한 예입니다. 이러한 노력을 통해 그들은 여러 인력, 프로세스, 프로토콜 및 기대에 영향을 미치는 매우 복잡한 환경 내에서 역할을 수행합니다.

데이터 과학자가 제공하는 가치에 더 많은 것을 추가하는 방법

그런 다음 James는 데이터 과학자가 자신의 업무에서 탁월함을 발휘하고 데이터 분석 및 시각화 틈새 시장에서 탁월한 성과를 낼 수 있는 방법을 계속해서 강조합니다. 두 가지 측면이 있습니다. 하나는 기술 자체(Hadoop, R, Python 및 Spark와 같은 솔루션 형태)이고 다른 하나는 데이터 과학자(데이터 애플리케이션 개발자, 모델러, 데이터 엔지니어, 시니어 관리 및 ETL 전문가). 둘 다 협력하여 데이터 과학자에게 더 높은 생산성을 촉진하는 환경을 제공해야 합니다. James는 이것을 달성하는 몇 가지 방법을 나열했습니다.

  1. 여러 데이터 세트를 사용한 작업 용이성 – 의료 센터의 경우를 예로 들 수 있습니다. 수천 명의 환자에 대한 수백만 개의 기록을 유지하고 저장할 수 있습니다. 여기에는 구조화된 데이터와 구조화되지 않은 데이터(병리학 이미지, 의사 기록 등)가 포함될 수 있습니다. 일반적인 빅 데이터 구현은 Hadoop 데이터 레이크를 생성하고 추가 사용을 위해 데이터를 활용하는 것입니다. 또 다른 예로 소셜 미디어 게시물과 댓글을 가져와 데이터 클러스터에 저장하는 것을 들 수 있습니다. 데이터 과학자는 이처럼 다양한 데이터 세트에서 데이터를 쉽게 얻을 수 있어야 합니다. 일부 예에는 데이터 레이크, 데이터 클러스터, 클라우드 서비스가 포함됩니다.
  2. 업무 책임에서 Excel – 데이터 분석, 예측 모델링, 기계 학습, 데이터 마이닝 및 시각화. 이것들은 데이터 과학자가 관여하는 많은 기능 중 일부일 뿐입니다. 매우 자연스럽게 그/그녀는 작업을 수행하기 위해 과다한 활동을 수행해야 합니다. 여기에는 하나 이상의 데이터 검색, 유사한 데이터 집계, 유니버스와 일치하도록 데이터 가중치 부여, 더 깊은 통찰력 생성을 위한 모델 준비 및 선별, 가설 공식화, 테스트 및 검증이 포함될 수 있습니다. 단순한 구조화된 데이터이든 복잡한 다중 구조화된 데이터이든 생산성 환경에서는 데이터 과학자가 다양한 직무를 수행할 수 있어야 합니다.
  3. 실무 경험 – 데이터 과학자에게 빅 데이터 분석 애플리케이션에 대한 실무 지식을 구현할 수 있는 모든 범위를 제공합니다. 여기에는 R, Python, Spark 및 Hadoop이 포함될 수 있습니다.
  4. 다양성 확장 – 앞서 언급했듯이 데이터 과학자는 일상적인 역할과 책임에서 많은 전문가와 상호 작용해야 합니다. 여기에는 데이터 애플리케이션 개발자, 모델러, 데이터 엔지니어, 고위 경영진 및 ETL 전문가가 포함됩니다. 접점은 기계 학습, 통계 탐색, 신경망, 데이터 웨어하우징, 데이터 변환 및 데이터 수집과 같은 주제에 대한 이해와 작업을 용이하게 할 수 있는 라이브러리 및 템플릿에 대한 지식을 공유해야 합니다.
  5. 진행 상황 모니터링 – 데이터 과학자는 모델링, 통계 연구 및 데이터 마이닝에 사용할 대규모 데이터 세트를 처리하기 위한 프로세스를 고안, 설계 및 실행하는 데 많은 비중을 둡니다. 그는 또한 비즈니스 사례 개발, 타사 공급업체와의 상호 작용, 전체 데이터 분석 프로젝트의 수명 주기 관리와 같은 많은 보조 기능을 수행하며 팀이 끝까지 잘 정렬되도록 유지하고 진행 상황에 대한 정기적인 업데이트로 이해 관계자와 상호 작용 프로젝트의. 도움이 되는 환경에서 데이터 과학자는 작업을 올바르게 수행할 수 있도록 하는 다양한 구성 요소의 올바른 기능을 추적, 시행 및 확인할 수 있어야 합니다. 이러한 구성 요소에는 라이브러리, 모델링, 기술 통합, 데이터, 알고리즘 및 메타데이터가 포함됩니다.

이러한 유용한 지침을 통해 James는 빅 데이터 생태계에서 데이터 과학자의 가치를 향상시킬 수 있는 방법을 제시합니다.

웹에서 데이터를 수집할 계획입니까? 도와드리겠습니다. 귀하의 요구 사항에 대해 알려주십시오 .