Специалисты по данным и их методы науки о данных в современном мире
Опубликовано: 2022-05-19Наука о данных — это область, которая выросла не по дням, а по часам, как и сами данные, созданные человеком и машинами. Это привело к росту числа людей из разных областей, таких как математика и биологические науки, использующих данные как инструмент для решения проблем. Алгоритмы вышли далеко за рамки обработки чисел и текстов. Сегодня они обрабатывают практически любые форматы данных, такие как изображения, видео и аудио. Это дало компаниям доступ к более широкому спектру неструктурированных данных. Источники данных также выросли, и сегодня данные из социальных сетей являются одним из ключевых источников для многих компаний, пытающихся составить профиль людей. Все это поверх уже экспоненциально растущих структурированных данных.
Самые известные специалисты по данным, которые ходили по Земле
В науке о данных были сделаны огромные открытия, и мы можем ожидать большего в ближайшие дни. Мы находимся на этапе, когда происходят революционные открытия в науке о данных, которые используются для решения реальных проблем. Было бы полезно взглянуть на некоторые из самых больших открытий и находок с самого начала.
Алан Тьюринг
Алан Тьюринг, возможно, является одним из самых известных специалистов по данным. Он считается отцом искусственного интеллекта, а также теоретической информатики.
Он стал популярным благодаря фильму «Игра в имитацию». Однако его изобретение Бомбы, электромеханического устройства, используемого для взлома Enigma (немецкое шифровальное устройство времен Второй мировой войны), было не единственным его открытием. Его исследовательская работа привела к созданию первой в мире машины, способной вычислять целые математические сценарии. Пилотная модель машины имела тактовую частоту 1 МГц — самый быстрый компьютер того времени. Во время холодной войны его исследования даже использовались для расчета движения самолетов.
Он также создал тест Тьюринга — набор правил, чтобы определить, может ли компьютер думать и действовать как человек. Основываясь на том, насколько точно машина может имитировать человека, рассчитывается процент прохождения. Сегодня мы используем множество вариантов теста, наиболее распространенным из которых является Captcha. Капча — это обратный тест Тьюринга, в котором люди должны доказать, что они не машина.
Алексей Крижевский
2012 год оказался жизненно важным для глубокого обучения (отрасли машинного обучения, где искусственные нейронные сети используются для извлечения признаков из больших данных). Крижевский расширил возможности нейронных сетей до невиданных ранее уровней. Он основал «Алекснет», алгоритм, который снизил уровень ошибок для конкурса Imagenet наполовину (почти 15%). В ImageNet Challenge людям нужно классифицировать миллионы объектов по сотням категорий.
Его алгоритм мог обнаруживать кошек с точностью почти 75%, а лица из видео на YouTube — с точностью более 80%. Программное обеспечение для распознавания лиц, которое работает в системах безопасности, или те, которые вы используете сегодня для разблокировки своего телефона, можно отнести к этому человеку. Медицинская визуализация — еще одна область, которая получила огромный импульс благодаря использованию нейронных сетей для обнаружения изображений.
Ян Гудфеллоу
Ян Гудфеллоу представил миру генеративно-состязательные сети (GAN), которые могут иметь 2 типа моделей:
- Модель генератора после обучения на данных пытается создать новые примеры того же типа.
- Модель дискриминатора пытается классифицировать реальный и поддельный (сгенерированный) контент.
К сожалению, сегодня генераторная модель широко используется в так называемых DeepFake. Многие из них разместили в Интернете невероятные речи популярных людей, которые позже были признаны DeepFake. Он открыл банку червей, где почти любой, у кого есть ноутбук и подключение к Интернету, может создать совершенно новое видео из существующего и заставить говорящего сказать абсолютно все, что угодно. Искусственный интеллект учится на существующем видео, а затем может автоматически имитировать выражение лица, голос и стиль речи.
Алгоритм вторгся туда, куда раньше не вторгался никакой другой машинный код, — в человеческое творчество. Он может создавать картины и генерировать лица (которых не существует). Картины, сделанные GAN, даже продавались на аукционах за 400 тысяч долларов. Такие компании, как Adobe, разработали новые методы обнаружения поддельного контента, поскольку ситуация сейчас выходит из-под контроля. GAN не только повлияли на нынешнюю сцену ИИ, но и, вероятно, станут причиной более радикальных открытий в будущем.
Себастьян Трун
В то время как большинство из вас, должно быть, слышали о Tesla, первой компании, которая сделала беспилотные автомобили действительно доступными для масс, мало кто слышал имя Себастьяна Труна. Широко известный как отец беспилотных автомобилей, Трун выиграл конкурс беспилотных автомобилей, проведенный Пентагоном в 2005 году. Он также основал и руководил проектом Google Driverless Car, прежде чем уйти, чтобы запустить Udacity и сделать образование более доступным для толпы. Однако его знакомство с робототехникой началось задолго до этого, когда в 1997 году он создал первого робота-гида для Немецкого музея в Бонне. Он также был связан с несколькими ведущими лабораториями искусственного интеллекта, например, в CMU и Стэнфорде.

Эндрю Нг
Сообщество разработчиков открытого исходного кода, а также специалисты по данным, такие как Эндрю Нг (соучредитель Coursera), внесли огромный вклад в то, чтобы сделать науку о данных доступной для широких масс. Google сделал TensorFlow бесплатным для использования в 2015 году, а Facebook последовал его примеру, выпустив PyTorch в 2016 году. Пользовательские библиотеки на таких языках, как Python (например, Scikit Learn и Pandas), упростили для любого человека запуск за считанные часы).
Курсы, подобные курсам Эндрю, помогли людям, не имеющим математического образования, разобраться в том, как работают алгоритмы ИИ. Существуют также веб-сайты, такие как Kaggle и GitHub, которые сделали проблемы ИИ, наборы данных и решения легко доступными для всех в Интернете.
И путь вперед…
Мы только что обсудили некоторые из крупнейших исследовательских проектов, ученых и преподавателей, которые внесли свой вклад в область науки о данных, но что дальше? Какие инструменты должны играть большую роль? На каких проблемах сейчас сосредоточится сообщество Data Science? Как компании пытаются использовать все эти исследования и открытия для принятия решений, основанных на данных? Чтобы узнать ответы на эти вопросы, нужно взглянуть на последние тенденции в этой области.
Использование облачной инфраструктуры для обработки данных
Сбор данных растет с каждым годом. Компании добавили новые источники, такие как сторонние источники или данные из социальных сетей. Однако проблема заключается в очистке, нормализации, обработке и форматировании таких массивных наборов данных. Поскольку многие из этих источников производят частично или неструктурированные данные, для их обработки требуется больше ресурсов. Запуск алгоритмов даже на тестовых данных может оказаться серьезной проблемой на локальных машинах (ноутбуках).
Именно по этой причине провайдеры облачных услуг, такие как AWS, добились роста своего бизнеса до миллиардов долларов. Облачные сервисы, такие как AWS S3, предоставляют чрезвычайно дешевые услуги по сохранению данных. Это также одни из первых появившихся облачных сервисов. Хранилище данных — это только начало, новые сервисы, связанные с обработкой и форматированием, также нашли более широкое применение. Сегодня Data Engineers, которые могут рассчитать и создать эффективную инфраструктуру для систем, управляемых данными, более востребованы, чем специалисты по данным.
Все это изменило то, как компании используют большие данные и облачные сервисы. Сами данные предлагаются в качестве услуги поставщиками DaaS (данные как услуга), такими как PromptCloud. Эти службы позволяют компаниям получать доступ к сторонним данным или данным конкурентов, указывая веб-сайты, с которых им нужны данные для извлечения, и требуемые точки данных.
Интернет вещей
Хотя Интернет вещей не нов, только сейчас все больше и больше физических устройств общаются друг с другом. К облаку подключено больше устройств, чем когда-либо прежде, и они собирают и обмениваются всеми данными, собранными с помощью своих датчиков.
Это позволяет использовать решения нового поколения, такие как удаленная диагностика машин. Программные решения могут использовать данные датчиков, чтобы дать приблизительный срок службы различных деталей и аксессуаров. Данные помогают уведомлять людей, когда система может перестать работать. По мере того, как будет собираться больше данных, а глубокое обучение будет творить чудеса, мы будем использовать больше данных, чтобы делать более точные прогнозы с участием машин, подключенных к Интернету вещей. Мы также, вероятно, увидим более широкое использование IoT на промышленном уровне, за исключением роботов на складах, бум которых произошел в последние несколько лет.
Более мощная обработка естественного языка
Подмножество искусственного интеллекта, НЛП имеет дело с человеческим языком. Это то, что приводит в действие Siri или Alexa. Он касается того, как языки используются в режиме реального времени, а не только грамматического состава. Ожидается, что компании будут использовать последние открытия в НЛП в новых продуктах, чтобы людям было легче взаимодействовать с машинами и программами. Недалек тот день, когда вы будете говорить со своим компьютером, и он будет выполнять за вас задачи.
Здравоохранение
Машинное обучение и наука о данных сильно повлияли на медицинскую науку. Мы применили его для решения таких задач, как обнаружение диабета, идентификация раковых клеток, радиология и патология. Исследование, проведенное Стэнфордом, показало, что ИИ может идентифицировать рак кожи не хуже врачей.
В ближайшее десятилетие многие исследовательские работы и документы будут использованы на практике. Мы можем ожидать несколько прорывов –
- Выявление и прогнозирование заболеваний еще до их возникновения.
- Машины могли бы обрабатывать медицинские изображения более эффективно, чем люди.
- Прогнозирование вспышек, таких как COVID-19.
- Smarter Health записывает и отслеживает с помощью нескольких средств, таких как умные часы.
Расстояние, которое мы преодолели, огромно! Сегодня мы можем выполнять вычисления, для которых нужны машины, заполняющие всю комнату, на чипе размером с ноготь на ноге. Прогресс в производстве микросхем, а также более высокая скорость Интернета и передачи данных напрямую способствовали развитию науки о данных и ее реальных приложений. Будущее науки о данных должно зависеть от множества секторов и организаций, а демократическая наука о данных создаст равные условия для всех.
