Повышение ценности специалистов по данным в экосистеме больших данных
Опубликовано: 2016-10-15Огромный охват и влияние больших данных практически на все отраслевые вертикали известны. С помощью Big Data кажущаяся массивной и сложной цепочка коммуникаций, комментариев и упоминаний брендов анализируется на детальном уровне. Цель этого упражнения — раскрыть идеи, которые, возможно, до сих пор оставались скрытыми от взглядов лиц, принимающих решения в компании. Возьмем случай с Американ Экспресс. Компания-гигант по выпуску карт хотела представить больше, чем просто скользящие индикаторы, чтобы реализовать свои агрессивные планы роста. Это побудило AmEx инвестировать в создание сложных, но мощных прогностических моделей, которые учитывают до 115 переменных . Цель упражнения? Изучить способы повышения лояльности клиентов к бренду и снижения оттока клиентов с помощью больших данных.

Этот прогностический анализ является одной из форм науки о данных — области, которая помогает извлекать знания или идеи из больших данных (как структурированных, так и неструктурированных). Некоторые другие реализации науки о данных включают статистический анализ, интеллектуальный анализ данных , инженерию данных, вероятностные модели, визуализации и машинное обучение. Наука о данных является частью более широкой области конкурентной разведки, которая также включает анализ данных и интеллектуальный анализ данных.
Взгляд на повышение производительности специалистов по данным нового поколения
Евангелист IBM по большим данным Джеймс Кобелус опубликовал интересную статью , в которой освещаются различные способы повышения производительности специалистов по обработке и анализу данных следующего поколения. Это, в свою очередь, может повлиять на судьбу мировой экономики, финансов и общества.
Он признал критически важную роль, которую играют специалисты по обработке и анализу данных в обеспечении ценности постоянно доступной бизнес-среды. Их ценность заключается в интеграции различных повторяющихся решений, которые помогают анализировать данные и генерировать значимые идеи, чтобы помочь заинтересованным сторонам в процессе принятия решений.

Почему важно повышать производительность специалистов по обработке и анализу данных
Специалисты по данным выполняют множество различных ролей и обязанностей во всей экосистеме больших данных. К ним относятся такие задачи, как –
Руководство
- Проектирование и разработка статистических моделей
- Анализ производительности этих моделей
- Проверка моделей с реальными данными
- Выполнение сложной задачи по передаче идей таким образом, чтобы их могли понять не эксперты по данным (заинтересованные стороны и лица, принимающие решения).
Автоматизированный
- Инициация, мозговой штурм и исследование клиентского бизнеса и сбор информации
- Обнаружение данных
- Профилирование данных
- Выборка и организация данных
Очевидно, что эти задачи требуют набора знаний в области человеческого капитала, которые невозможно найти в одном отдельном человеке. Должна быть создана команда людей, являющихся экспертами в разных нишах. Что еще более важно, они должны быть согласованы таким образом, чтобы бизнес-цель иметь команду специалистов по данным была достигнута мирно и без какой-либо политики. И этого можно достичь, имея надежный набор процессов и протоколов, которым должен следовать каждый член команды.
Однако установка и применение этих протоколов не обязательно означает снижение производительности специалистов по обработке и анализу данных. Джеймс рассматривает примеры из реальной жизни, в которых различные процессы были настроены для обеспечения оптимальной производительности специалистов по обработке и анализу данных в сложных командных средах. Одним из примеров, который он специально упомянул в этом контексте, является Бен Лорика из O'Reilly. В этой статье мы стремимся предложить специалистам по данным следующие преимущества в производительности:
- Положения готового API, который может быть доступен для выполнения различных основных и подэтапов анализа данных и области визуализации. Оптимизация сквозного процесса обработки машинного обучения может помочь на каждом этапе проекта, что может экспоненциально улучшить сокращение времени и затрат. И это снижение намного больше, чем затраты на интеграцию программного обеспечения в существующие системы вашей организации.
- Типы данных, такие как мультимедиа (аудио, видео, контент), играют ключевую роль в потоковой передаче мультимедиа и когнитивных вычислениях. С помощью автоматизированного машинного обучения можно легко поглощать и анализировать эти типы данных. Бен предлагает использовать примеры конвейеров для речи и компьютерного зрения и загрузчики данных для других типов данных.
- Приложения могут помочь в быстром обучении, использовании и совершенствовании статистических и прогностических моделей. Примеры таких масштабируемых алгоритмов машинного обучения включают среды выполнения на основе Spark .
- Производительность специалистов по данным также можно повысить за счет разумного расширения конвейеров обработки многофункциональных проектов машинного обучения. Примеры таких компонентов включают в себя включение и загрузку библиотек и оптимизаторов. Другие экземпляры этих компонентов включают в себя разнообразные загрузчики данных , функции и распределители памяти.
В нем также говорится о разработке, четком определении и настройке границ ошибок, чтобы помочь проверить эффективность проектов машинного обучения. С помощью этих усилий реальная производительность может быть измерена по заранее заданным эталонным показателям. Кроме того, это может помочь в точной настройке модели, если существует значительное отклонение фактической производительности модели от ожидаемых результатов.

Это один из примеров усилий, предпринимаемых во всем мире в различных организациях для повышения производительности специалистов по обработке и анализу данных. Благодаря этим усилиям они выполняют свои роли в очень сложных средах, затрагивающих множество сотрудников, процессов, протоколов и ожиданий.
Как увеличить ценность, предоставляемую учеными данных
Затем Джеймс рассказывает о том, как специалисты по обработке и анализу данных могут преуспеть в своей работе и замечательно преуспеть в нише анализа и визуализации данных. Есть два аспекта: один — это сама технология (в виде таких решений, как Hadoop, R, Python и Spark), а другой — команда экспертов, которые формируют точки соприкосновения для специалистов по данным (разработчики приложений данных, разработчики моделей, инженеры данных, старшие руководство и специалисты ETL). Оба они должны работать в тандеме, чтобы обеспечить среду, которая способствует более высокой производительности специалистов по данным. Джеймс перечислил довольно много способов добиться этого.
- Простота работы с несколькими наборами данных. Возьмем, к примеру, медицинский центр. Он может поддерживать и хранить миллионы записей для тысяч пациентов. Они могут включать как структурированные, так и неструктурированные данные (изображения патологии, записи врачей и т. д.). Типичной реализацией больших данных будет создание озера данных Hadoop и использование данных для дальнейшего использования. Другим примером могут быть посты и комментарии в социальных сетях, которые собираются и сохраняются в кластерах данных. Специалист по данным должен иметь возможность легко получать данные из таких разнообразных наборов данных. Некоторые из примеров включают в себя озера данных, кластеры данных, облачные сервисы.
- Excel в рабочих обязанностях — аналитика данных, прогнозное моделирование, машинное обучение, интеллектуальный анализ данных и визуализация. Это лишь некоторые из многих функций, в которых участвует специалист по данным. Вполне естественно, что ему/ей придется выполнять множество действий для выполнения работы. Это может включать в себя одно или несколько из обнаружения данных, агрегирование похожих данных, взвешивание данных для соответствия вселенной, подготовку и курирование моделей для получения более глубокого понимания, а также формулирование, проверку и проверку гипотезы. Будь то простые структурированные данные или более сложные многоструктурные данные, продуктивная среда требует, чтобы специалист по обработке и анализу данных преуспевал в различных рабочих обязанностях.
- Практический опыт. Предоставьте ученым все возможности для реализации своих практических знаний о приложениях для анализа больших данных. Это могут быть R, Python, Spark и Hadoop.
- Расширьте их универсальность. Как упоминалось ранее, специалисты по данным должны взаимодействовать со многими экспертами в своих повседневных ролях и обязанностях. К ним относятся разработчики приложений для работы с данными, специалисты по моделированию, инженеры по данным, высшее руководство и эксперты ETL. Точки соприкосновения должны делиться знаниями о библиотеках и шаблонах, которые могут облегчить работу, а также понимание таких тем, как машинное обучение, статистические исследования, нейронные сети, хранение данных, преобразование данных и сбор данных.
- Мониторинг прогресса. Специалист по данным придает большое значение разработке, проектированию и внедрению процессов обработки крупномасштабных наборов данных, которые будут использоваться для моделирования, статистических исследований и интеллектуального анализа данных. Он / она также выполняет множество вспомогательных функций, таких как разработка бизнес-кейса, взаимодействие со сторонними поставщиками, управление жизненным циклом всего проекта анализа данных, поддерживая согласованность команды до самого конца и взаимодействуя с заинтересованными сторонами с регулярными обновлениями о прогрессе. проекта. В благоприятной среде специалист по данным должен иметь возможность отслеживать, обеспечивать и проверять правильное функционирование различных компонентов, которые позволяют ему/ей выполнять свою работу правильно. Эти компоненты включают библиотеки, моделирование, технические интеграции, данные, алгоритмы и метаданные.
С помощью этих полезных советов Джеймс показывает, как можно повысить ценность специалистов по обработке и анализу данных в экосистеме больших данных.
Планируете получать данные из Интернета? Мы здесь, чтобы помочь. Дайте нам знать о ваших требованиях.
