Cammina prima, poi corri: perché le best practice di governance dei dati sono essenziali per la modellazione avanzata

Pubblicato: 2022-05-04

Nel mondo del marketing, la governance dei dati non è mai al centro di una prospettiva di analisi fallimentare. In qualità di Direttore dell'analisi digitale di Wpromote, so quanto siano importanti dati puliti e coerenti per i modelli avanzati e le previsioni che i dirigenti del marketing adorano, ma ho anche assistito in prima persona alla resistenza a dedicare tempo e fatica sui dati fondamentali che fanno funzionare quei modelli.

I dirigenti sono comprensibilmente più entusiasti dei nuovi brillanti strumenti e del loro potenziale ROI. Ma se eviti il ​​passaggio fondamentale di etichettatura, gestione e aggiornamento dei dati in modo coerente, la tua azienda può sprecare centinaia di ore e perdere milioni di dollari su modelli che non funzioneranno mai.

Sul serio. Milioni.

Garbage In, Garbage Out: perché una cattiva governance dei dati lascia i tuoi risultati di modellazione dei dati avanzati un pasticcio

Quindi togliamoci di mezzo le cattive notizie: se il tuo marchio è nuovo di zecca, appena uscito dagli schemi, il modello di marketing avanzato si basa su dati errati... è spazzatura.

Se sei fortunato, potrebbe funzionare per un po', ma non sarai mai in grado di farlo funzionare a lungo termine. Perché è stato costruito e addestrato su input sbagliati. E troppo spesso il modo in cui le persone cercano di "aggiustare" un modello rotto è costruendo qualcosa di ancora più complesso. Se non hai corretto i difetti iniziali nei dati, è ancora rotto.

Modello avanzato basato su una cattiva governance dei dati

Pensalo come un grattacielo: la parte della torre affascinante e alla moda di cui tutti sono entusiasti è il tuo modello avanzato. Ma se la tua torre è costruita su fondamenta difettose o imperfette, avrai dei grossi problemi (basta chiedere ai residenti al 432 di Park Ave).

Modelli di dati avanzati che sostengono un modello errato basato su dati difettosi.

Costruire un mucchio di intricate impalcature per sostenere la tua torre senza affrontare ciò che è rotto nelle fondamenta potrebbe migliorare le cose per un po', ma non sta affrontando il problema fondamentale. Se i dati su cui è costruito tutto sono ancora scadenti, il tuo bellissimo modello potrebbe eventualmente fare la strada del London Bridge.

Tutti cadono: il compromesso tra bias e varianza e altri racconti di cattiva governance dei dati

È difficile ignorare l'attrazione magnetica di un approccio incentrato sul modello (in contrapposizione a un approccio basato sui dati) all'analisi avanzata dei dati. Ma esperti pionieri nel campo come Andrew Ng stanno spingendo i data scientist a resistere all'attrazione di costruire modelli fantasiosi per adattarsi a dati disordinati. Una considerazione importante per qualsiasi analista che utilizzi la modellazione statistica è il Bias-Variance Tradeoff.

Ci sono due errori principali associati al Bias-Variance Tradeoff:

Overfitting: alta varianza, bassa distorsione

Il tuo modello è estremamente sensibile e finisce per concentrarsi sul rumore casuale. Non è sempre immediatamente evidente che qualcosa non va perché il modello è in grado di produrre informazioni affidabili corrispondenti a specifici insiemi di dati, ma non possono essere applicati accuratamente a futuri apprendimenti o set di dati aggiuntivi.

Underfitting: bassa varianza, alta distorsione

Quando non hai abbastanza segnale dai tuoi dati, il tuo modello perde i modelli rilevanti nei dati, non riuscendo a prevedere con precisione i risultati.

Se ti affidi alla modellazione dei dati avanzata, devi assumere persone con una rara combinazione di talenti. Ma con un approccio incentrato sui dati, potresti non aver effettivamente bisogno di un assunzione di unicorno che combini l'esperienza del marketing digitale con la modellazione statistica e le competenze informatiche.

L'utilizzo di dati migliori significa che è probabile che i modelli di machine learning tradizionali e meno complessi risolvano i tuoi problemi, il che significa che non hai necessariamente bisogno di data scientist esperti per svolgere il lavoro. Invece, gli analisti di dati possono estrarre preziose informazioni da questi modelli più semplici mentre apprendono i dadi e i bulloni della scienza dei dati in un ambiente (relativamente) pulito.

“Quando un sistema non funziona bene, molti team cercano istintivamente di migliorare il codice. Ma per molte applicazioni pratiche, è più efficace concentrarsi invece sul miglioramento dei dati".

Andrea Ng | Fondatore e CEO, Landing AI

Ma questa non è l'unica parte della tua strategia che dovresti riconsiderare. Le organizzazioni che lanciano modelli avanzati come le reti neurali su problemi con bias elevati dovrebbero fermarsi e valutare il loro approccio. Rischiano di usare dei costosissimi cerotti su una ferita che non si rimarginerà mai senza risalire all'inizio: i dati.

E tutto questo è prevenibile.

Ecco perché ogni cliente che utilizza Growth Planner, il nostro modello di media misti ad alta velocità in Polaris, è strettamente associato alla nostra offerta di governance dei dati. Non è perché siamo cattivi, è perché sappiamo che Growth Planner (o qualsiasi modello per quella materia) non funzionerà se è basato su dati errati. È così che sappiamo che gli approfondimenti di Growth Planner sono accurati, attuabili e generano valore effettivo. Pratichiamo ciò che predichiamo.

Più valore, meno costi: applicare il principio 80/20 all'analisi dei dati

C'è una vecchia verità nel mondo della scienza dei dati: l'80% del tuo tempo e del tuo impegno dovrebbe essere speso per pulire i dati e il 20% per modellarli.

La cosa con quei vecchi detti? Sono spesso vere.

Stabilindo best practice mature per la governance dei dati, i data scientist possono creare modelli avanzati che funzionano e forniscono informazioni preziose che guidano la crescita aziendale.

Le aziende possono risparmiare milioni di dollari incrociando le loro t e punteggiando le loro i con la governance dei dati che garantisce che le basi della tua analisi avanzata siano solide perché è costruita sulle giuste tassonomie, è pulita e completa.

Ma la governance dei dati non riguarda solo il risparmio di denaro che altrimenti verrebbe buttato via. Si tratta di una crescita redditizia. Potrebbe non essere esaltante parlare delle minuzie di come la tua azienda tratta le designazioni statali (usa il nome completo dello stato o l'abbreviazione?), ma è l'unico modo in cui sarai in grado di costruire e distribuire modelli avanzati che forniscano al tuo business un vantaggio competitivo attraverso analisi, approfondimenti e previsioni accurate.

Best practice per la governance dei dati: 4 modi in cui la governance dei dati sblocca il vantaggio competitivo

Quando si tratta di puntine, la governance dei dati è solo un buon affare. Le aziende che adottano le migliori pratiche di governance dei dati vinceranno nella prossima era dell'IA. Le aziende che trascurano di stabilire questi processi saranno sconfitte.

Ecco 4 vantaggi che puoi sbloccare con una base dati solida e affidabile:

  1. Ottimizza il tuo tempo: con una forte governance dei dati in atto, gli analisti dei dati possono dedicare più tempo alla creazione di modelli e meno tempo a ripulire ciò che non funziona dopo il fatto. Ti prepara anche a evitare di perdere tempo con modelli sofisticati solo per scoprire che i tuoi risultati sono inutili.
  2. Spendi meno, ottieni più valore: migliori sono i tuoi dati, meno sofisticati devono essere i tuoi algoritmi. Eseguendo il lavoro essenziale per mettere in ordine la tua data house prima di creare il tuo modello, sarai in grado di utilizzare modelli più semplici che richiedono meno investimenti ma producono risultati eccezionali.
  3. Democratizza la tua analisi dei dati: quando esegui meno modelli barocchi, non dovrai assumere un intero team di data scientist armati di PHD per comprendere i risultati. Puoi lasciare che analisti meno esperti gestiscano il lavoro e forniscano informazioni di qualità in modo affidabile.
  4. Prendi decisioni di marketing migliori: quando ottimizzi il tuo tempo, spendi meno in tecnologia e rendi più accessibile l'analisi dei dati, hai già un enorme vantaggio competitivo dal punto di vista del risparmio sui costi. Ma hai anche l'opportunità di costruire modelli migliori, modelli belli, modelli che prevedono e prevedono con precisione cosa devi fare dopo o dove devi spendere, o quali canali vedranno il miglior ROI. Modelli che funzionano.

E prendilo da un data scientist: i modelli avanzati più sexy sono quelli costruiti su basi solide perché si basano su dati solidi.

Scopri di più sull'approccio di Wpromote alla governance dei dati e su come il nostro modello Growth Planner sta cambiando il gioco con le ultime novità su Polaris, la nostra piattaforma tecnologica proprietaria.

Intelligenza digitale analitica