Сначала иди, потом беги: почему лучшие практики управления данными необходимы для расширенного моделирования
Опубликовано: 2022-05-04В мире маркетинга управление данными никогда не находится в центре внимания с точки зрения неэффективной аналитики. Как директор по цифровому анализу Wpromote, я знаю, насколько важны чистые и непротиворечивые данные для продвинутых моделей и прогнозов, которые обожают маркетологи, но я также лично был свидетелем сопротивления трате времени и усилий на фундаментальные данные, которые заставляют эти модели работать.
Руководители по понятным причинам более взволнованы новыми блестящими инструментами и их потенциальной окупаемостью. Но если вы обойдете основополагающий этап последовательной маркировки, управления и обновления данных, ваш бизнес может потратить сотни часов и миллионы долларов на модели, которые никогда не будут работать.
Шутки в сторону. Миллионы.
Мусор на входе, мусор на выходе: почему плохое управление данными приводит к беспорядку в результатах расширенного моделирования данных
Итак, давайте избавимся от плохих новостей: если ваш бренд представляет собой сверкающую новую, свежую, продвинутую маркетинговую модель, построенную на неверных данных… это мусор.
Если вам повезет, это может работать какое-то время, но вы никогда не сможете заставить его работать в долгосрочной перспективе. Потому что он был построен и обучен на плохих исходных данных. И слишком часто люди пытаются «починить» сломанную модель, создавая что-то еще более сложное. Если вы не исправили первоначальные ошибки в данных, они все равно не работают.

Думайте об этом как о небоскребе: крутая гламурная часть башни, которая всех волнует, — это ваша продвинутая модель. Но если ваша башня построена на плохом или поврежденном фундаменте, у вас возникнут серьезные проблемы (просто спросите жителей дома 432 по Парк-авеню).

Строительство множества сложных лесов для поддержки вашей башни без устранения того, что сломано в фундаменте, может на какое-то время улучшить ситуацию, но это не решает фундаментальную проблему. Если данные, на которых все это построено, все еще плохи, ваша красивая модель может в конечном итоге пойти по пути Лондонского моста.
Все рушится: компромисс между предвзятостью и дисперсией и другие рассказы о плохом управлении данными
Притягательную силу модельно-ориентированного (а не ориентированного на данные) подхода к расширенному анализу данных трудно игнорировать. Но новаторские эксперты в этой области, такие как Эндрю Нг, подталкивают специалистов по обработке и анализу данных сопротивляться привлекательности создания причудливых моделей для сопоставления беспорядочных данных. Одним из основных соображений для любого аналитика, использующего статистическое моделирование, является компромисс между погрешностью и дисперсией.
Есть две основные ошибки, связанные с компромиссом смещения и дисперсии:
Переобучение: высокая дисперсия, низкое смещение
Ваша модель очень чувствительна и в конечном итоге фокусируется на случайном шуме. Не всегда сразу становится очевидным, что что-то не так, потому что модель способна давать надежные выводы, соответствующие конкретным наборам данных, но их нельзя точно применить к будущим знаниям или дополнительным наборам данных.
Недообучение: низкая дисперсия, высокое смещение
Когда у вас недостаточно сигналов от ваших данных, ваша модель пропускает соответствующие шаблоны в данных, не в состоянии точно предсказать результаты.
Если вы полагаетесь на расширенное моделирование данных, вам нужно нанять людей с редким сочетанием талантов. Но при подходе, ориентированном на данные, вам может не понадобиться нанимать единорога, который сочетает в себе опыт цифрового маркетинга со статистическим моделированием и навыками в области компьютерных наук.
Использование более качественных данных означает, что традиционные, менее сложные модели машинного обучения, скорее всего, решат ваши проблемы, а это означает, что вам не обязательно нужны опытные специалисты по данным для выполнения этой работы. Вместо этого аналитики данных могут извлечь ценную информацию из этих более простых моделей, одновременно изучая основы науки о данных в (относительно) чистой среде.

«Когда система работает плохо, многие команды инстинктивно пытаются улучшить код. Но для многих практических приложений более эффективно вместо этого сосредоточиться на улучшении данных».
Но это не единственная часть вашей стратегии, которую вы должны пересмотреть. Организации, использующие продвинутые модели, такие как нейронные сети, для решения проблем с высокой предвзятостью, должны остановиться и оценить свой подход. Они рискуют наложить очень дорогие пластыри на рану, которая никогда не заживет, если не вернуться к самому началу: к данным.
И все это можно предотвратить.
Вот почему каждый клиент, использующий Планировщик роста, нашу высокоскоростную смешанную мультимедийную модель в Polaris, тесно связан с нашим предложением по управлению данными. Это не потому, что мы злые, а потому, что мы знаем, что Планировщик роста (или любая другая модель в этом отношении) не будет работать, если он основан на неверных данных. Именно так мы узнаем, что идеи Планировщика роста точны, действенны и приносят реальную пользу. Мы практикуем то, что проповедуем.
Больше пользы, меньше затрат: применение принципа 80/20 к анализу данных
В мире науки о данных существует старая истина: 80% вашего времени и усилий следует тратить на очистку данных и 20% на их моделирование.
Что за старые поговорки? Они часто верны.
Применяя зрелые передовые методы управления данными, ваши специалисты по данным могут создавать передовые модели, которые работают и предоставляют ценную информацию, которая способствует развитию бизнеса.
Предприятия могут сэкономить миллионы долларов, расставив крестики и расставив все точки над i с помощью управления данными, которое гарантирует надежность основы расширенного анализа, поскольку он построен на правильных таксономиях, чист и полон.
Но управление данными — это не только экономия денег, которые в противном случае вы бы выбросили. Речь идет о прибыльном росте. Возможно, вам неинтересно рассказывать о том, как ваш бизнес относится к обозначениям штатов (используете ли вы полное название штата или аббревиатуру?), но это единственный способ, с помощью которого вы сможете создавать и развертывать продвинутые модели, которые дадут вам получить конкурентное преимущество благодаря точному анализу, знаниям и прогнозам.
Передовой опыт управления данными: 4 способа управления данными, раскрывающие конкурентное преимущество
Когда дело доходит до медных гвоздей, управление данными — это просто хороший бизнес. Фирмы, которые перенимают лучшие практики управления данными, выиграют в грядущую эпоху ИИ. Компании, которые пренебрегают установлением этих процессов, будут переиграны.
Вот 4 преимущества, которые вы можете открыть с помощью прочной и надежной базы данных:
- Оптимизируйте свое время. Благодаря эффективному управлению данными аналитики данных могут тратить больше времени на построение моделей и меньше времени на исправление того, что не работает постфактум. Это также настраивает вас на то, чтобы не тратить время на запуск сложных моделей только для того, чтобы обнаружить, что ваши результаты бесполезны.
- Тратьте меньше, получайте больше пользы: чем лучше ваши данные, тем менее сложными должны быть ваши алгоритмы. Выполнив необходимую работу по приведению в порядок хранилища данных перед построением модели, вы сможете использовать более простые модели, требующие меньших вложений, но дающие исключительные результаты.
- Демократизируйте свой анализ данных: когда вы используете меньше причудливых моделей, вам не нужно будет нанимать целую команду специалистов по данным, вооруженных кандидатами наук, чтобы понять результаты. Вы можете позволить менее опытным аналитикам справиться с работой и надежно предоставить качественные аналитические данные.
- Принимайте лучшие маркетинговые решения. Когда вы оптимизируете свое время, тратите меньше на технологии и делаете анализ данных более доступным, вы уже получаете огромное конкурентное преимущество с точки зрения экономии средств. Но у вас также есть возможность создавать лучшие модели, красивые модели, модели, которые точно предсказывают и предсказывают, что вам нужно делать дальше, или куда вам нужно потратить, или какие каналы окупятся с наибольшей рентабельностью. Модели, которые работают.
И возьмите это у специалиста по данным: самые привлекательные из продвинутых моделей — это модели, построенные на твердой почве, потому что они основаны на надежных данных.
