오늘날의 세계에서 데이터 과학자와 그들의 데이터 과학 방법

게시 됨: 2022-05-19
목차
지구를 걸었던 가장 유명한 데이터 과학자
앨런 튜링
알렉스 크리제프스키
이안 굿펠로우
세바스찬 트룬
앤드류 응
그리고 앞으로의 길…
클라우드 인프라를 사용하여 데이터 처리
사물 인터넷
더욱 강력한 자연어 처리
보건 의료

데이터 사이언스는 인공 및 기계가 만든 데이터 그 자체처럼 비약적으로 성장한 분야입니다. 데이터를 문제 해결 도구로 활용하면서 수학, 생명과학 등 다양한 분야의 개인이 증가했습니다. 알고리즘은 숫자와 텍스트를 처리하는 것 이상으로 발전했습니다. 오늘날 그들은 이미지, 비디오 및 오디오와 같은 거의 모든 데이터 형식을 처리합니다. 이를 통해 기업은 보다 광범위한 비정형 데이터에 액세스할 수 있습니다. 데이터 소스도 증가했으며 오늘날 소셜 미디어 데이터는 개인을 프로파일링하려는 많은 회사의 핵심 소스 중 하나입니다. 이 모든 것은 이미 기하급수적으로 증가하는 구조화된 데이터 위에 있습니다.

지구를 걸었던 가장 유명한 데이터 과학자

데이터 과학에서 엄청난 발견이 있었고 앞으로 더 많은 것을 기대할 수 있습니다. 우리는 데이터 과학의 혁명적인 발견이 일어나고 있고 실제 문제를 해결하는 데 사용되고 있는 시기에 있습니다. 처음부터 가장 큰 발견과 발견을 살펴보는 것은 가치가 있을 것입니다.

앨런 튜링

Alan Turing은 아마도 현존하는 가장 유명한 데이터 과학자 중 한 명일 것입니다. 그는 이론적인 컴퓨터 과학뿐만 아니라 인공 지능의 아버지로 간주됩니다.

그는 영화 "이미테이션 게임"을 통해 대중적인 이름이 되었습니다. 그러나 에니그마(제2차 세계 대전 당시 독일의 암호 장치)를 깨는 데 사용된 전기 기계 장치인 봄베(Bombe)의 발명이 그의 유일한 발견은 아니었습니다. 그의 연구 작업으로 전체 수학적 시나리오를 계산할 수 있는 최초의 기계가 탄생했습니다. 기계의 파일럿 모델은 1MHz의 클럭 속도를 가졌습니다. 이는 당시 가장 빠른 컴퓨터였습니다. 냉전 기간 동안 그의 연구는 항공기 움직임을 계산하는 데에도 사용되었습니다.

그는 또한 컴퓨터가 인간처럼 생각하고 행동할 수 있는지 확인하기 위한 일련의 규칙인 튜링 테스트를 만들었습니다. 기계가 얼마나 인간을 모방할 수 있는지에 따라 합격률이 계산됩니다. 오늘날 우리는 다양한 테스트 변형을 사용하며 가장 일반적인 것은 Captcha입니다. Captcha는 인간이 기계가 아님을 증명해야 하는 역 튜링 테스트입니다.

알렉스 크리제프스키

2012년은 딥 러닝(빅 데이터에서 특징을 추출하기 위해 인공 신경망을 사용하는 머신 러닝의 한 분야)에 매우 중요한 해였습니다. Krizhevsky는 이전에 볼 수 없었던 수준으로 신경망을 강화했습니다. 그는 Imagenet 경쟁의 오류율을 절반(거의 15%)으로 줄이는 알고리즘인 "Alexnet"을 설립했습니다. ImageNet Challenge는 개인이 수백 개의 범주에 걸쳐 수백만 개의 개체를 분류해야 하는 곳입니다.

그의 알고리즘은 거의 75%의 정확도로 고양이를 감지하고 80% 이상의 정확도로 YouTube 동영상의 얼굴을 감지할 수 있습니다. 보안 시스템에서 실행되는 얼굴 인식 소프트웨어 또는 오늘날 휴대전화의 잠금을 해제하는 데 사용하는 소프트웨어는 모두 이 사람의 탓일 수 있습니다. 의료 영상은 이미지 감지에 신경망을 사용하여 크게 발전한 또 다른 분야입니다.

이안 굿펠로우

Ian Goodfellow는 2가지 유형의 모델을 가질 수 있는 GAN(Generative Adversarial Networks)을 세상에 소개했습니다.

  1. 데이터에 대해 훈련된 생성기 모델은 동일한 유형의 새 예제를 생성하려고 시도합니다.
  2. 판별자 모델은 실제 및 가짜(생성된) 콘텐츠를 분류하려고 합니다.

불행히도 생성기 모델은 오늘날 DeepFakes로 가장 잘 알려진 곳에서 널리 남용되었습니다. 많은 사람들이 인터넷에 유명인의 믿을 수 없는 연설을 올렸습니다. 이 연설은 모두 나중에 DeepFakes로 밝혀졌습니다. 랩톱과 인터넷에 연결된 거의 모든 사람이 기존 비디오에서 완전히 새로운 비디오를 만들고 스피커가 절대적으로 무엇이든 말할 수 있는 웜 캔을 열었습니다. 재생 중인 인공 지능은 기존 비디오에서 학습한 다음 얼굴 표정, 음성 및 말하는 스타일을 자동으로 모방할 수 있습니다.

알고리즘은 이전에 다른 기계 코드가 인간의 창의성을 하지 못했던 영역을 잠식했습니다. 그것은 그림을 만들고 (존재하지 않는) 얼굴을 생성할 수 있습니다. GAN이 그린 그림은 경매에서 40만 달러에 팔렸습니다. Adobe와 같은 회사는 상황이 이제 손을 댈 수 없는 상황이므로 가짜 콘텐츠를 식별하는 새로운 기술을 내놓았습니다. GAN은 현재 AI 현장에 영향을 미쳤을 뿐만 아니라 미래에 더 급진적인 발견을 일으킬 가능성이 있습니다.

세바스찬 트룬

대부분의 사람들이 자율주행 자동차를 대중이 진정으로 이용할 수 있게 만든 최초의 회사인 Tesla에 대해 들어보았겠지만 Sebastian Thrun이라는 이름을 들어본 사람은 거의 없을 것입니다. 자율 주행 자동차의 아버지로 널리 알려진 Thrun은 2005년 펜타곤이 주최한 자율 주행 자동차 경연 대회에서 우승했습니다. 또한 그는 Udacity를 시작하고 대중이 더 쉽게 교육을 받을 수 있도록 하기 위해 떠나기 전에 Google Driverless Car 프로젝트를 설립하고 운영했습니다. 그러나 로봇 공학과의 인연은 1997년 독일 박물관 본을 위한 최초의 로봇 투어 가이드를 만들었을 때부터 시작되었습니다. 그는 또한 CMU 및 Stanford의 연구소와 같은 여러 선도적인 AI 연구소와 관련이 있습니다.

앤드류 응

오픈 소스 커뮤니티와 Andrew Ng(Coursera의 공동 설립자)와 같은 데이터 과학자들이 데이터 과학을 대중이 액세스할 수 있도록 하기 위해 엄청난 공헌을 했습니다. Google은 2015년에 TensorFlow를 무료로 제공했으며 Facebook은 2016년에 PyTorch를 도입했습니다. Python과 같은 언어로 된 사용자 지정 라이브러리(Scikit Learn 및 Pandas 등) 덕분에 누구나 몇 시간 만에 매우 쉽게 시작할 수 있습니다.

Andrew의 강좌와 같은 강좌는 수학적 배경이 없는 사람들이 AI 알고리즘의 작동 원리를 이해하는 데 도움이 되었습니다. 또한 AI 문제, 데이터 세트 및 솔루션을 인터넷상의 모든 사람이 쉽게 액세스할 수 있도록 만든 Kaggle 및 GitHub와 같은 웹 사이트가 있습니다.

그리고 앞으로의 길…

우리는 방금 데이터 과학 분야에 기여한 가장 큰 연구 프로젝트, 과학자 및 교육자에 대해 논의했지만 다음은 무엇입니까? 어떤 도구가 더 큰 역할을 할까요? 데이터 사이언스 커뮤니티가 다음에 집중하는 문제는 무엇입니까? 기업은 이 모든 연구와 발견을 데이터 기반 의사 결정에 어떻게 활용하려고 합니까? 이러한 질문에 대한 답을 알기 위해서는 해당 분야의 최신 동향을 살펴봐야 합니다.

클라우드 인프라를 사용하여 데이터 처리

데이터 수집은 해가 갈수록 증가했습니다. 회사는 타사 소스 또는 소셜 미디어 데이터와 같은 새로운 소스를 추가했습니다. 그러나 문제는 이러한 방대한 데이터 세트의 정리, 정규화, 처리 및 형식화에 있습니다. 이러한 소스 중 상당수는 반 또는 비정형 데이터를 생성하기 때문에 이러한 소스를 처리하려면 더 많은 리소스가 필요합니다. 테스트 데이터에서도 알고리즘을 실행하는 것은 로컬 컴퓨터(노트북)에서 주요 과제로 판명될 수 있습니다.

이것이 AWS와 같은 클라우드 서비스 공급자가 비즈니스가 수십억 달러로 성장하는 것을 목격한 이유입니다. AWS S3와 같은 클라우드 서비스는 데이터 저장을 위한 매우 저렴한 서비스를 제공합니다. 이들은 또한 존재하게 된 최초의 클라우드 서비스 중 일부입니다. 데이터 저장소는 시작에 불과하며 처리 및 형식 지정을 다루는 새로운 서비스도 더 많이 사용됩니다. 오늘날 데이터 기반 시스템을 위한 효율적인 인프라를 계산하고 생성할 수 있는 데이터 엔지니어는 데이터 과학자보다 더 많은 수요가 있습니다.

이 모든 것이 기업이 빅 데이터와 클라우드 서비스를 사용하는 방식을 변화시켰습니다. 데이터 자체는 PromptCloud와 같은 DaaS(Data as a Service) 공급자에 의해 서비스로 제공되고 있습니다. 이러한 서비스를 통해 회사는 데이터를 스크랩해야 하는 웹사이트와 필요한 데이터 포인트를 지정하여 타사 데이터 또는 경쟁업체 데이터에 액세스할 수 있습니다.

사물 인터넷

사물 인터넷이 새로운 것은 아니지만 점점 더 많은 물리적 장치가 서로 통신하고 있습니다. 그 어느 때보다 더 많은 장치가 클라우드에 연결되어 있으며 센서를 통해 수집된 모든 데이터를 수집하고 공유하고 있습니다.

이것은 기계의 원격 진단과 같은 새로운 시대의 솔루션을 가능하게 합니다. 소프트웨어 솔루션은 센서 데이터를 사용하여 다양한 부품 및 액세서리의 대략적인 수명을 제공할 수 있습니다. 데이터는 시스템 작동이 중지될 때 개인에게 알리는 데 도움이 됩니다. 더 많은 데이터가 수집되고 딥 러닝이 마법처럼 작동함에 따라 IoT에 연결된 기계와 관련된 더 나은 예측을 위해 더 많은 데이터를 사용할 것입니다. 우리는 또한 지난 몇 년 동안 붐을 일으킨 창고의 로봇을 제외하고 산업 수준에서 IoT 사용이 더 많이 사용되는 것을 보게 될 것입니다.

더욱 강력한 자연어 처리

인공 지능의 하위 집합인 NLP는 인간의 언어를 다룹니다. 그것은 Siri 또는 Alexa를 강화하는 것입니다. 문법 구성에만 초점을 맞추는 대신 실시간으로 언어가 사용되는 방식을 다룹니다. 회사는 개인이 기계 및 소프트웨어와 더 쉽게 상호 작용할 수 있도록 최신 제품에 NLP의 최신 결과를 사용할 것으로 예상됩니다. 당신이 당신의 컴퓨터에 말을 걸고 당신을 위해 작업을 수행할 날이 멀지 않았습니다.

보건 의료

기계 학습과 데이터 과학은 의학에 많은 영향을 미쳤습니다. 당뇨병 진단, 암세포 식별, 방사선학, 병리학 등의 문제 해결에 적용했습니다. 스탠포드에서 실시한 연구에 따르면 AI는 의사와 마찬가지로 피부암을 식별할 수 있습니다.

앞으로 10년 동안 많은 연구 작업과 논문이 실용화될 것입니다. 우리는 여러 혁신을 기대할 수 있습니다.

  • 질병이 발생하기 전에도 질병을 식별하고 예측합니다.
  • 기계는 인간보다 의료 이미지를 더 효율적으로 처리할 수 있습니다.
  • COVID-19와 같은 발병을 예측합니다.
  • Smarter Health는 smartwatch와 같은 여러 수단을 통해 기록 및 추적합니다.

우리가 다룬 거리는 엄청나다! 오늘날 발톱 크기의 칩으로 방 전체를 채울 수 있는 기계가 필요한 계산을 수행할 수 있습니다. 칩 제조의 발전과 더 빠른 인터넷 및 데이터 전송 속도는 데이터 과학 및 실제 응용 프로그램의 성장에 직접적인 기여를 했습니다. 데이터 과학의 미래는 여러 부문과 조직에 달려 있으며 민주적인 데이터 과학은 모두를 위한 수준의 분야를 만들 것입니다.