매니아를 위한 필수 데이터 과학 기술

게시 됨: 2018-06-26
목차
빅 데이터의 5가지 V
1. 데이터캠프
2. 코세라
3. 데이터스톡
4. 캐글
5. 데이터퀘스트

데이터는 말 그대로 기하급수적으로 증가하여 페타바이트에 이르렀습니다! 전 세계 데이터의 90%가 지난 2년 동안에만 생성되었다는 사실을 믿을 수 있습니까? 이 볼륨에서는 데이터 관리가 까다로운 작업이 되었습니다. 필수적인 데이터 과학 기술이 선두 자리를 차지하는 것은 당연합니다.

빅 데이터의 5가지 V

빅 데이터는 종종 5개의 V를 사용하여 설명됩니다. 즉 - 볼륨, 속도, 다양성, 진실성 및 가치.

  • 1. 데이터 볼륨은 오늘날 사용되는 수백만 대의 모바일 장치에서 매초 생성되는 방대한 양의 데이터를 의미합니다. 우리가 생산하는 모든 이메일, 트위터 메시지, 사진, 비디오 클립, 센서 데이터 등은 많은 회사에서 가장 가치 있는 데이터입니다.
  • 2. 데이터 속도(Data Velocity)는 새로운 데이터가 생성되는 속도와 수익성을 높이기 위해 한 곳에서 다른 곳으로 이동할 수 있는 속도를 의미합니다.
  • 3. 데이터 다양성은 우리 모두가 관련될 수 있는 것입니다. 대부분의 조직에서 데이터는 과거에 데이터베이스와 엑셀 시트를 의미했습니다. 그러나 오늘날 데이터는 훨씬 더 많은 것을 의미합니다. 전 세계 데이터의 80%가 비정형 데이터입니다 . 사진, 비디오 및 트위터 업데이트를 생각해 보십시오.
  • 4. 데이터 정확성은 데이터의 신뢰성 수준을 나타냅니다. 데이터가 엄청난 크기로 증가함에 따라 더티 데이터는 다른 어떤 것과도 비교할 수 없는 고통을 줄 수 있는 바이러스이기 때문에 데이터를 최대한 깨끗하게 유지하는 것이 중요합니다.
  • 5. 데이터 가치는 데이터의 진정한 가치입니다. 많은 데이터를 수집하고 작업하기로 결정합니다. 모두 잘되고 좋습니다. 그러나 데이터가 회사에 어떤 가치를 더합니까? 중요한 것은 데이터 투자를 통해 얻을 수 있는 이점은 무엇입니까?

따라서 빅 데이터 및 데이터 과학의 붐에 휩싸인 경우 아래 나열된 5가지 리소스를 살펴보는 것이 좋습니다.

1. 데이터캠프

Datacamp는 Python과 R에 대한 경험이 거의 또는 전혀 없는 사람들에게 가장 적합합니다. 매우 기초적인 것부터 시작하여 문제를 하나씩 차례로 제시하는 단계적 접근 방식을 가지고 있습니다. 그것은 초보자를 위한 신의 선물이며 예산 범위에서 가격이 책정됩니다.

1년 동안 구독하고 프리미엄 프로젝트 및 기능에 액세스하려는 경우 Datacamp가 제공하는 막대한 할인을 확인하십시오. 마스터할 수 있는 여러 트랙이 있으며 각 트랙은 약 20-30개의 코스로 구성되어 있습니다. 인기 있는 트랙은 다음과 같습니다.

  • ㅏ. Python을 사용하는 데이터 과학자
  • 비. R을 사용한 정량 분석
  • 씨. Python을 사용한 데이터 조작
  • 디. R로 데이터 가져오기 및 정리
  • 이자형. R을 사용한 데이터 시각화

시간이 없다면 다음과 같은 소규모 코스도 할 수 있습니다.

  • ㅏ. 데이터 과학을 위한 Python 소개
  • 비. R 소개
  • 씨. PostgreSQL에서 데이터 조인
  • 디. 중급 R

2. 코세라

Coursera는 데이터 과학에서 군사 역사에 이르기까지 모든 것을 배울 수 있는 최고의 플랫폼 중 하나이며 직접 경험했습니다. 과정을 감사하도록 선택하고 과정 자료에 무료로 액세스할 수 있습니다. Coursera에서 제공하는 최고의 데이터 과학 과정은 다음과 같습니다.

ㅏ. 데이터 분석 및 프레젠테이션 기술: PwC 접근 방식 – 이 전문화 과정은 데이터 분석에 대한 실무 경험과 비즈니스 인텔리전스를 실제 결과로 전환하는 방법에 대한 노하우를 얻는 데 도움이 됩니다. 데이터를 더 잘 이해하고 필터링하고 적용하여 문제를 더 빨리 해결하는 데 도움이 됩니다. Microsoft Excel, PowerPoint 및 기타 일반적인 데이터 분석 및 커뮤니케이션 도구에 익숙해질 것입니다. 가장 중요한 것은 데이터를 읽고 제시하는 방법을 배우게 될 것입니다.

비. 빅 데이터, UCSD – 빅 데이터와 빅 데이터가 비즈니스에 미치는 영향을 이해해야 하는 경우 이 전문 분야가 적합합니다. MapReduce, Spark, Pig 및 Hive와 함께 Hadoop과 같은 빅 데이터 과학자 및 엔지니어가 사용하는 도구 및 시스템에 대한 실습 경험을 얻을 수 있습니다. 예측 모델링을 수행하고 그래프 분석을 활용하여 문제를 모델링하는 방법을 배우게 됩니다. 끝까지 노력하면 데이터 소프트웨어 회사 Splunk와 공동으로 개발한 Capstone 프로젝트를 완료할 수 있으며 여기서 배운 기본 개념을 적용할 수 있습니다.

씨. Johns Hopkins University의 데이터 과학 전문화 – 이 전문화 영역은 올바른 질문을 하는 것부터 추론을 하고 간단하면서도 강력한 형식으로 결과를 게시하는 것까지 전체 데이터 경로에 걸쳐 필요한 개념과 도구를 다룹니다. .

디. 데이터 과학을 위한 SQL, UC Davis- 이 과정은 데이터 과학 세계의 데이터베이스 요구 사항으로 마이그레이션하는 데 도움이 될 데이터 작업과 함께 SQL의 기초에 대한 입문서를 제공하도록 설계되었습니다. 이 과정은 아주 기본적인 것부터 시작하여 SQL 지식이 전혀 없다고 가정합니다. 복잡성은 꾸준히 증가하고 점차적으로 테이블에서 데이터를 선택하는 데 도움이 되는 간단한 쿼리와 복잡한 쿼리를 모두 작성해야 합니다.

3. 데이터스톡

전 세계 다양한 산업의 포괄적이고 깨끗하며 바로 사용할 수 있는 웹 데이터 세트가 필요한 경우 Datastock을 확인하십시오. 이 솔루션은 분석을 수행하고 통찰력을 얻고 데이터 과학 기술을 습득하기 위해 즉시 사용할 수 있는 데이터 세트를 찾는 사람들에게 이상적입니다.

좋은 점은 구매하기 전에 무료 샘플 데이터 세트를 얻을 수 있다는 것입니다. 데이터 품질을 직접 테스트한 다음 결정할 수 있습니다.

4. 캐글

Kaggle은 데이터 과학 프로젝트를 수행하는 곳이며 신진 데이터 과학자들 사이에서 가장 인기 있는 웹사이트 중 하나입니다. 다음과 같은 다양한 옵션을 제공합니다.

  • ㅏ. 나만의 새로운 프로젝트 시작하기
  • 비. 다른 사람이 만든 프로젝트 탐색
  • 씨. 후원하는 대회에 참가하기

5. 데이터퀘스트

그들의 실습 방법은 데이터 과학자, 데이터 분석가 또는 데이터 엔지니어가 되는 데 필요한 모든 기술을 가르쳐줍니다. 다양한 방법으로 배울 수 있습니다.

  • ㅏ. 코드 작성
  • 비. 데이터 작업
  • 씨. 프로젝트 구축