Científicos de datos y sus métodos de ciencia de datos en el mundo actual

Publicado: 2022-05-19
Mostrar tabla de contenido
Los científicos de datos más famosos que caminaron sobre la Tierra
alan turing
Alex Krizhevsky
Ian Goodfellow
Sebastián Thrun
andres ng
Y el camino a seguir…
Uso de la infraestructura de la nube para procesar datos
Internet de las Cosas
Procesamiento de lenguaje natural más potente
Cuidado de la salud

La ciencia de datos es un campo que ha crecido a pasos agigantados, al igual que los propios datos creados por el hombre y las máquinas. Ha llevado al crecimiento en el número de personas de diferentes campos como las matemáticas y las biociencias, que toman los datos como una herramienta para resolver problemas. Los algoritmos han ido mucho más allá del manejo de números y textos. Hoy, procesan casi cualquier formato de datos, como imágenes, videos y audio. Esto ha dado a las empresas acceso a una gama más amplia de datos no estructurados. Las fuentes de datos también han crecido, y hoy en día los datos de las redes sociales son una de las fuentes clave para muchas empresas que intentan perfilar a las personas. Todo esto se suma a los datos estructurados que ya crecen exponencialmente.

Los científicos de datos más famosos que caminaron sobre la Tierra

Ha habido descubrimientos masivos en la ciencia de datos y podemos esperar más en los próximos días. Estamos en un momento en el que se están produciendo descubrimientos revolucionarios en la ciencia de datos y se están utilizando para resolver problemas de la vida real. Valdría la pena echar un vistazo a algunos de los mayores descubrimientos y hallazgos desde el principio.

alan turing

Alan Turing es posiblemente uno de los científicos de datos más famosos que ha existido. Se le considera el padre de la inteligencia artificial así como de la informática teórica.

Se ha convertido en un nombre popular a través de la película "The Imitation Game". Sin embargo, su invención de Bombe, el dispositivo electromecánico utilizado para descifrar Enigma (el dispositivo de cifrado alemán de la Segunda Guerra Mundial) no fue su único descubrimiento. Su trabajo de investigación condujo a la creación de la primera máquina que podía calcular escenarios matemáticos completos. El modelo piloto de la máquina tenía una velocidad de reloj de 1 MHz, la computadora más rápida de la época. Durante la guerra fría, su investigación incluso se utilizó para calcular los movimientos de los aviones.

También creó la prueba de Turing, un conjunto de reglas para determinar si una computadora puede pensar y actuar como un ser humano. En función de lo cerca que una máquina puede imitar a un humano, se calcula el porcentaje de aprobación. Usamos muchas variaciones de la prueba hoy en día, la más común es Captcha. Captcha es una prueba de Turing inversa donde los humanos deben demostrar que no son una máquina.

Alex Krizhevsky

El año 2012 resultó ser vital para el aprendizaje profundo (una rama del aprendizaje automático en la que se utilizan redes neuronales artificiales para extraer características de grandes datos). Krizhevsky potenció las redes neuronales a niveles nunca antes vistos. Fundó “Alexnet”, un algoritmo que redujo las tasas de error de la competencia Imagenet a la mitad (casi el 15%). ImageNet Challenge es donde las personas necesitan clasificar millones de objetos en cientos de categorías.

Su algoritmo podía detectar gatos con casi un 75 % de precisión y rostros de videos de YouTube con más del 80 % de precisión. El software de reconocimiento facial que se ejecuta en los sistemas de seguridad, o los que usa para desbloquear su teléfono hoy, se pueden atribuir a este hombre. La imagen médica es otro campo que recibió un gran impulso gracias al uso de redes neuronales para detectar imágenes.

Ian Goodfellow

Ian Goodfellow presentó al mundo las redes adversas generativas (GAN) que pueden tener 2 tipos de modelos:

  1. El modelo generador, una vez entrenado en datos, intenta crear nuevos ejemplos del mismo tipo.
  2. El modelo discriminador trata de clasificar contenido real y falso (generado).

Desafortunadamente, hoy en día se ha abusado mucho del modelo de generador en lo que se conoce mejor como DeepFakes. Muchos han publicado discursos increíbles de personas populares en Internet, que luego se descubrió que eran DeepFakes. Ha abierto una lata de gusanos donde casi cualquier persona con una computadora portátil y conexión a Internet puede crear un video completamente nuevo a partir de uno existente y hacer que el orador diga absolutamente cualquier cosa. La inteligencia artificial en juego aprende de un video existente y luego puede imitar automáticamente las expresiones faciales, la voz y el estilo de hablar.

El algoritmo ha invadido donde ningún otro código de máquina lo hizo anteriormente: la creatividad humana. Puede crear pinturas y generar caras (que no existen). Las pinturas hechas por GAN incluso se han vendido por hasta $ 400K en subastas. Empresas como Adobe han ideado nuevas técnicas para detectar contenido falso, ya que la situación se está saliendo de control. Las GAN no solo han influido en la escena actual de la IA, sino que es probable que provoquen descubrimientos más radicales en los próximos años.

Sebastián Thrun

Si bien la mayoría de ustedes debe haber oído hablar de Tesla, la primera compañía que hizo que los autos sin conductor fueran realmente accesibles para las masas, pocos deben haber escuchado el nombre de Sebastian Thrun. Conocido popularmente como el padre de los autos sin conductor, Thrun ganó el concurso de vehículos sin conductor realizado por el Pentágono en 2005. También estableció y dirigió el proyecto Google Driverless Car antes de irse para iniciar Udacity y hacer que la educación sea más accesible para las multitudes. Sin embargo, su paso por la robótica comenzó mucho antes, cuando en 1997 creó la primera guía turística robótica para el Deutsches Museum Bonn. También ha estado asociado con múltiples laboratorios de IA líderes, como los de CMU y Stanford.

andres ng

Ha habido una contribución masiva tanto de la comunidad de código abierto como de científicos de datos como Andrew Ng (cofundador de Coursera) para hacer que la ciencia de datos sea accesible para las masas. Google hizo que TensorFlow fuera de uso gratuito en 2015, y Facebook hizo lo mismo con PyTorch en 2016. Las bibliotecas personalizadas en lenguajes como Python (como Scikit Learn y Pandas) han hecho que sea extremadamente fácil para cualquiera comenzar en cuestión de horas.

Cursos como los de Andrew han ayudado a las personas que no tienen antecedentes matemáticos a llegar al fondo de cómo funcionan los algoritmos de IA. También hay sitios web como Kaggle y GitHub que han hecho que los problemas, conjuntos de datos y soluciones de IA sean fácilmente accesibles para cualquier persona en Internet.

Y el camino a seguir…

Acabamos de discutir algunos de los proyectos de investigación, científicos y educadores más importantes que han contribuido al campo de la ciencia de datos, pero ¿qué sigue? ¿Qué herramientas jugarán un papel más importante? ¿En qué problemas se está enfocando la comunidad de Data Science a continuación? ¿Cómo intentan las empresas utilizar toda esta investigación y descubrimientos para potenciar la toma de decisiones basada en datos? Para conocer las respuestas a estas preguntas, uno tiene que mirar las últimas tendencias en el campo:

Uso de la infraestructura de la nube para procesar datos

La recopilación de datos ha crecido con cada año que pasa. Las empresas han agregado nuevas fuentes, como fuentes de terceros o datos de redes sociales. Sin embargo, el desafío radica en la limpieza, la normalización, el procesamiento y el formateo de conjuntos de datos tan masivos. Dado que muchas de estas fuentes producen datos semiestructurados o no estructurados, procesarlos requiere más recursos. Ejecutar algoritmos incluso en datos de prueba puede resultar un gran desafío en máquinas locales (portátiles).

Esta es la razón por la cual los proveedores de servicios en la nube como AWS han visto crecer sus negocios a miles de millones de dólares. Los servicios en la nube como AWS S3 brindan servicios extremadamente económicos para guardar datos. Estos son también algunos de los primeros servicios en la nube que surgieron. El almacenamiento de datos es solo el comienzo, los servicios más nuevos que se ocupan del procesamiento y el formateo también han encontrado un mayor uso. Hoy en día, los ingenieros de datos que pueden calcular y crear una infraestructura eficiente para los sistemas basados ​​en datos tienen más demanda que los científicos de datos.

Todo esto ha cambiado la forma en que las empresas utilizan el big data y los servicios en la nube. Los datos en sí se ofrecen como un servicio por parte de proveedores de DaaS (Datos como servicio), como PromptCloud. Estos servicios permiten a las empresas acceder a datos de terceros o de la competencia al especificar los sitios web de los que necesitan extraer datos y los puntos de datos que se requieren.

Internet de las Cosas

Si bien el Internet de las cosas no es nuevo, solo ahora cada vez más dispositivos físicos se comunican entre sí. Más dispositivos están conectados a la nube que nunca, y recopilan y comparten todos los datos recopilados a través de sus sensores.

Esto está permitiendo soluciones de la nueva era como el diagnóstico remoto de máquinas. Las soluciones de software pueden usar datos de sensores para brindarle una vida útil aproximada de diferentes piezas y accesorios. Los datos ayudan a notificar a las personas cuando un sistema podría dejar de funcionar. A medida que se recopilen más datos y el aprendizaje profundo haga su magia, utilizaremos más datos para hacer mejores predicciones que involucren máquinas conectadas a IoT. También es probable que veamos un mayor uso de IoT a nivel industrial, además de los robots en los almacenes que han tenido un auge en los últimos años.

Procesamiento de lenguaje natural más potente

Un subconjunto de la Inteligencia Artificial, la PNL se ocupa del lenguaje humano. Es lo que impulsa a Siri o Alexa. Se trata de cómo se usan los idiomas en tiempo real en lugar de centrarse solo en la composición gramatical. Se espera que las empresas utilicen los últimos descubrimientos en PNL en productos más nuevos para que las personas puedan interactuar con las máquinas y el software más fácilmente. No estamos lejos del día en que le hablará a su computadora y realizará tareas por usted.

Cuidado de la salud

El aprendizaje automático y la ciencia de datos han influido mucho en la ciencia médica. Lo hemos aplicado para resolver problemas como la detección de diabetes, la identificación de células cancerosas, la radiología y la patología. Un estudio realizado por Stanford ha demostrado que la IA puede identificar el cáncer de piel tan bien como los médicos.

En la próxima década, gran parte del trabajo de investigación y los documentos se pondrán en práctica. Podemos esperar múltiples avances.

  • Identificación y predicción de enfermedades incluso antes de que sucedan.
  • Las máquinas podrían procesar imágenes médicas de manera más eficiente que los humanos.
  • Predecir brotes como el COVID-19.
  • Registros y seguimiento de salud más inteligentes a través de múltiples medios, como relojes inteligentes.

¡La distancia que hemos recorrido es enorme! Podemos realizar cálculos que necesitan máquinas que llenarían una habitación entera, en un chip del tamaño de una uña hoy. El progreso en la fabricación de chips, así como velocidades más rápidas de transferencia de datos e Internet, han contribuido directamente al crecimiento de la ciencia de datos y sus aplicaciones de la vida real. El futuro de la ciencia de datos dependerá de múltiples sectores y organizaciones y la ciencia de datos democrática creará un campo nivelado para todos.