Cientistas de dados e seus métodos de ciência de dados no mundo de hoje

Publicados: 2022-05-19
Índice mostrar
Os cientistas de dados mais famosos que andaram na Terra
Alan Turing
Alex Krizhevsky
Ian Goodfellow
Sebastian Thrun
André Ng
E o caminho a seguir…
Como usar a infraestrutura de nuvem para processar dados
Internet das Coisas
Processamento de linguagem natural mais poderoso
Assistência médica

A ciência de dados é um campo que cresceu além dos trancos e barrancos, assim como os próprios dados feitos pelo homem e criados por máquina. Isso levou ao crescimento do número de indivíduos de diferentes áreas, como matemática e biociência, adotando dados como ferramenta para resolver problemas. Os algoritmos foram muito além da manipulação de números e textos. Hoje, eles processam praticamente qualquer formato de dados, como imagens, vídeos e áudio. Isso deu às empresas acesso a uma gama mais ampla de dados não estruturados. As fontes de dados também cresceram e hoje os dados de mídia social são uma das principais fontes para muitas empresas que tentam traçar perfis de indivíduos. Tudo isso está em cima dos dados estruturados que já crescem exponencialmente.

Os cientistas de dados mais famosos que andaram na Terra

Houve grandes descobertas em ciência de dados e podemos esperar mais nos próximos dias. Estamos em um momento em que descobertas revolucionárias em ciência de dados estão ocorrendo e sendo usadas para resolver problemas da vida real. Valeria a pena olhar para algumas das maiores descobertas e descobertas desde o início.

Alan Turing

Alan Turing é possivelmente um dos cientistas de dados mais famosos que já existiram. Ele é considerado o pai da inteligência artificial, bem como da ciência da computação teórica.

Ele se tornou um nome popular através do filme "O Jogo da Imitação". No entanto, sua invenção do Bombe, o dispositivo eletromecânico usado para quebrar o Enigma (o dispositivo de cifra alemão da Segunda Guerra Mundial) não foi sua única descoberta. Seu trabalho de pesquisa levou à criação da primeira máquina capaz de calcular cenários matemáticos inteiros. O modelo piloto da máquina tinha uma velocidade de clock de 1MHz - o computador mais rápido da época. Durante a guerra fria, sua pesquisa foi usada até para calcular movimentos de aeronaves.

Ele também criou o Teste de Turing – um conjunto de regras para determinar se um computador pode pensar e agir como um humano. Com base em quão perto uma máquina pode imitar um humano, a porcentagem de aprovação é calculada. Usamos muitas variações do teste hoje, sendo a mais comum o Captcha. Captcha é um teste de Turing reverso onde os humanos precisam provar que não são uma máquina.

Alex Krizhevsky

O ano de 2012 provou ser vital para o aprendizado profundo (um ramo do aprendizado de máquina em que redes neurais artificiais são usadas para extrair recursos de big data). Krizhevsky capacitou as redes neurais a níveis nunca vistos antes. Ele fundou o “Alexnet”, um algoritmo que reduziu as taxas de erro para a competição Imagenet para metade (quase 15%). O ImageNet Challenge é onde os indivíduos precisam classificar milhões de objetos em centenas de categorias.

Seu algoritmo pode detectar gatos com quase 75% de precisão e rostos de vídeos do YouTube com mais de 80% de precisão. O software de reconhecimento facial executado em sistemas de segurança, ou aqueles que você usa para desbloquear seu telefone hoje, podem ser atribuídos a esse homem. A imagem médica é outro campo que obteve um grande impulso graças ao uso de redes neurais para detecção de imagens.

Ian Goodfellow

Ian Goodfellow apresentou ao mundo as Generative Adversarial Networks (GANs) que podem ter 2 tipos de modelos:

  1. O modelo gerador, uma vez treinado em dados, tenta criar novos exemplos do mesmo tipo.
  2. O modelo discriminador tenta classificar conteúdo real e falso (gerado).

Infelizmente, o modelo do gerador tem sido amplamente abusado hoje no que é mais conhecido como DeepFakes. Muitos postaram discursos inacreditáveis ​​de indivíduos populares na internet - que mais tarde foram descobertos como DeepFakes. Ele abriu uma lata de worms onde quase qualquer pessoa com um laptop e conexão com a internet pode criar um vídeo totalmente novo a partir de um existente e fazer o palestrante dizer absolutamente qualquer coisa. A inteligência artificial em jogo aprende com um vídeo existente e é capaz de imitar automaticamente as expressões faciais, a voz e o estilo de fala.

O algoritmo invadiu onde nenhum outro código de máquina fez anteriormente - a criatividade humana. Pode criar pinturas e gerar rostos (que não existem). Pinturas feitas por GANs chegaram a ser vendidas por até US$ 400 mil em leilões. Empresas como a Adobe criaram novas técnicas para detectar conteúdo falso, já que a situação está ficando fora de controle. As GANs não apenas influenciaram o cenário atual da IA, mas provavelmente causarão descobertas mais radicais nos próximos anos.

Sebastian Thrun

Enquanto a maioria de vocês deve ter ouvido falar sobre a Tesla, a primeira empresa que tornou carros autônomos verdadeiramente acessíveis às massas, poucos devem ter ouvido o nome de Sebastian Thrun. Popularmente conhecido como o pai dos carros autônomos, Thrun venceu o concurso para veículos autônomos realizado pelo Pentágono em 2005. Ele também estabeleceu e administrou o projeto Google Driverless Car antes de partir para iniciar a Udacity e tornar a educação mais acessível às multidões. Sua passagem pela robótica, no entanto, começou muito antes, quando, em 1997, ele criou o primeiro guia turístico robótico para o Deutsches Museum Bonn. Ele também foi associado a vários laboratórios líderes de IA, como os da CMU e Stanford.

André Ng

Houve uma enorme contribuição tanto da comunidade de código aberto quanto de cientistas de dados como Andrew Ng (o cofundador do Coursera) para tornar a Ciência de Dados acessível às massas. O Google tornou o TensorFlow gratuito para uso em 2015, e o Facebook seguiu o exemplo com o PyTorch em 2016. Bibliotecas personalizadas em linguagens como Python (como Scikit Learn e Pandas) tornaram extremamente fácil para qualquer pessoa começar em questão de horas).

Cursos como os de Andrew ajudaram pessoas que não têm formação em matemática a entender como os algoritmos de IA funcionam. Também existem sites como Kaggle e GitHub que tornaram problemas de IA, conjuntos de dados e soluções facilmente acessíveis a qualquer pessoa na Internet.

E o caminho a seguir…

Acabamos de discutir alguns dos maiores projetos de pesquisa, cientistas e educadores que contribuíram para o campo da Ciência de Dados, mas o que vem a seguir? Quais ferramentas devem desempenhar um papel maior? Em quais problemas a comunidade de Data Science está se concentrando a seguir? Como as empresas estão tentando usar todas essas pesquisas e descobertas para impulsionar a tomada de decisões orientada por dados? Para saber as respostas a essas perguntas, é preciso olhar para as últimas tendências no campo –

Como usar a infraestrutura de nuvem para processar dados

A coleta de dados tem crescido a cada ano que passa. As empresas adicionaram novas fontes, como fontes de terceiros ou dados de mídia social. No entanto, o desafio está na limpeza, normalização, processamento e formatação de conjuntos de dados tão grandes. Como muitas dessas fontes produzem dados semi ou não estruturados, processá-los requer mais recursos. A execução de algoritmos em dados de teste uniformes pode ser um grande desafio em máquinas locais (laptops).

Esta é a razão pela qual provedores de serviços em nuvem como a AWS viram seus negócios crescerem para bilhões de dólares. Serviços de nuvem como o AWS S3 fornecem serviços extremamente baratos para salvar dados. Esses também são alguns dos primeiros serviços em nuvem que surgiram. O armazenamento de dados é apenas o começo, os serviços mais recentes que lidam com processamento e formatação também encontraram maior uso. Hoje, os engenheiros de dados que podem calcular e criar uma infraestrutura eficiente para sistemas orientados a dados são mais procurados do que os cientistas de dados.

Tudo isso mudou a forma como as empresas usam big data e serviços em nuvem. Os próprios dados estão sendo oferecidos como um serviço por provedores de DaaS (Data as a Service), como o PromptCloud. Esses serviços permitem que as empresas acessem dados de terceiros ou dados de concorrentes, especificando os sites dos quais eles precisam que os dados sejam extraídos e os pontos de dados necessários.

Internet das Coisas

Embora a Internet das Coisas não seja nova, é só agora que mais e mais dispositivos físicos estão conversando entre si. Mais dispositivos estão conectados à nuvem do que nunca e estão coletando e compartilhando todos os dados coletados por meio de seus sensores.

Isso está permitindo soluções da nova era, como diagnóstico remoto de máquinas. As soluções de software podem usar os dados do sensor para fornecer uma vida útil aproximada de diferentes peças e acessórios. Os dados estão ajudando a notificar as pessoas quando um sistema pode parar de funcionar. À medida que mais dados são coletados e o aprendizado profundo faz sua mágica, usaremos mais dados para fazer melhores previsões envolvendo máquinas conectadas à IoT. Também é provável que vejamos um maior uso da IoT em nível industrial, além dos robôs em armazéns que cresceram nos últimos anos.

Processamento de linguagem natural mais poderoso

Um subconjunto da Inteligência Artificial, a PNL lida com a linguagem humana. É o que alimenta a Siri, ou Alexa. Ele trata de como as linguagens são usadas em tempo real, em vez de se concentrar apenas na composição gramatical. Espera-se que as empresas usem as descobertas mais recentes da PNL em produtos mais novos para que os indivíduos possam interagir com máquinas e softwares mais facilmente. Não estamos longe de um dia em que você falará com seu computador e ele executará tarefas para você.

Assistência médica

O aprendizado de máquina e a ciência de dados influenciaram fortemente a ciência médica. Nós o aplicamos para resolver problemas como detecção de diabetes, identificação de células cancerígenas, radiologia e patologia. Um estudo realizado por Stanford mostrou que a IA pode identificar câncer de pele tão bem quanto os médicos.

A próxima década verá muito do trabalho de pesquisa e artigos sendo colocados em uso prático. Podemos esperar vários avanços –

  • Identificação e previsão de doenças antes mesmo que elas aconteçam.
  • Máquinas poderiam processar imagens médicas com mais eficiência do que humanos.
  • Previsão de surtos como o COVID-19.
  • Registros e rastreamento do Smarter Health por vários meios, como smartwatches.

A distância que percorremos é enorme! Podemos realizar cálculos que precisam de máquinas que ocupariam uma sala inteira, em um chip do tamanho de uma unha hoje. O progresso na fabricação de chips, bem como velocidades mais rápidas de internet e transferência de dados, contribuíram diretamente para o crescimento da ciência de dados e suas aplicações da vida real. O futuro da ciência de dados dependerá de vários setores e organizações, e a ciência de dados democrática criará um campo nivelado para todos.