Creșterea Big Data ca piață a serviciilor și ce înseamnă aceasta pentru companii – PromptCloud

Publicat: 2018-07-03
Cuprins arată
De ce este diferit de alte servicii oferite?
Ce tipuri de servicii ar fi necesare?
1. Decizia privind obiectivele și problema afacerii
2. Colectarea datelor și curățarea datelor
3. Modelarea datelor
4. Optimizați și repetați
5. Întreținere
De ce nu își poate obține fiecare companie o echipă de știință a datelor?

Termenul de date mari nu se referă doar la colectarea de cantități mari de date semnificative interconectate și interdependente, ci include și manipularea, procesarea și analiza rapidă a datelor. Acesta este ceva pentru care majoritatea companiilor nu sunt pregătite, iar majoritatea furnizorilor de servicii nu au acceptat încă provocările pe deplin. Acest lucru creează o diferență uriașă între cerere și ofertă și oferă o oportunitate colosală pentru cei de pe piața serviciilor de a obține un profit net prin furnizarea acestor servicii tuturor celor care au nevoie. Cu toate acestea, este mai ușor de spus decât de făcut.

De ce este diferit de alte servicii oferite?

Industria serviciilor a început cu furnizarea de software pentru a ajuta companiile, a trecut la furnizarea de platforme și infrastructură pregătită și acum ajută companiile să treacă la cloud. În toate aceste cazuri, industria serviciilor s-a confruntat cu probleme care puteau fi rezolvate și din care ar putea fi învățate, astfel încât a fost nevoie de mai puțin efort atunci când s-a abordat o problemă similară. Cu toate acestea, problema cu preluarea proiectelor de date mari ale diferitelor organizații este că, aproape niciodată nu sunt similare - unii colectează date de la mii de senzori, pentru unii, datele sunt înregistrări pe hârtie, colectate de-a lungul deceniilor, iar pentru alții, documente stocate digital. , imagini sau chiar înregistrări audio și video. Ceea ce doresc aceste companii să facă din date variază, de asemenea,

  • Analizați fluxul camerei pentru a identifica breșele de securitate.
  • Construiți un model din datele deceniului precedent, pentru a prezice care angajat ar putea demisiona.
  • Folosind învățarea automată pentru a identifica tendințele modei chiar înainte ca acestea să devină un succes.
  • Construiește mașini autonome.
  • Automatizați procesele care mai devreme necesitau intervenția umană folosind o logică inteligentă.
  • Și altele….

Cu o asemenea varietate de date structurate și nestructurate și o varietate de declarații de problemă, puteți înțelege că fiecare problemă și fiecare client este diferit și ar avea nevoie de un efort și o abordare personalizată. Ar fi nevoie de o echipă specializată, iar companiile de servicii nu pot doar să construiască o echipă de tineri recrutați în masă, cu seturi de abilități de bază.

Ce tipuri de servicii ar fi necesare?

1. Decizia privind obiectivele și problema afacerii

În această etapă inițială, atât analiștii de afaceri, cât și oamenii de știință de date, ar trebui să se așeze și să decidă ce problemă de afaceri va fi rezolvată și ce îmbunătățiri în metrici sunt vizate folosind ce set de date. Dacă nu se face acest lucru chiar de la început, blocaje și confuzie vor apărea în etapele ulterioare.

2. Colectarea datelor și curățarea datelor

Deși acest lucru ar putea să nu pară a face parte din analiza datelor mari, este într-adevăr o parte importantă. Fără date, ce ați analiza? Majoritatea companiilor și organizațiilor au salvat petaocteți de date, dar mai ales în formate nestructurate și au intrări duplicate și alte erori. Primul serviciu care ar fi necesar este colectarea datelor, urmată de curățarea datelor, deoarece știm cu toții despre nenorocirea datelor murdare. Când auzim „datele mari”, primul lucru care ne vine în minte sunt modelele complexe și inferențe colorate sub formă de grafice 3D. Realitatea este departe de asta. În medie, 60-80% din timpul total al proiectului este petrecut de oamenii de știință în date pentru a-și pregăti datele, le curăța și le stochează într-un mod organizat.

Într-adevăr, majoritatea cercetătorilor de date consideră că curățarea și pregătirea datelor sunt cea mai neplăcută parte a muncii lor, dar la urma urmei, aceasta este cea mai importantă. Cu excepția cazului în care datele pe care le ai, sunt detaliate, este mai mult sau mai puțin garantat că concluziile tale nu vor fi nici de clasa întâi. De la Excel la Python sau R, există mai multe modalități de curățare și structurare a datelor, astfel încât acestea să poată fi utilizate ulterior conform cerințelor. În cazul în care există mai multe surse de date, să spunem că o companie colectează date, atât din fluxul video, cât și din senzori, trebuie să existe un punct în care datele se întâlnesc sau în care una dintre date se completează pe cealaltă. Pentru aceasta, datele trebuie să fie structurate corespunzător și fac parte și din faza de curățare. Este important ca toate datele colectate, fie că sunt din mai multe surse, să dea aceeași inferență sau să indice aceeași direcție.

3. Modelarea datelor

În acest pas, se întâmplă așa-numita „magie”. Sunt construite diferite modele, datele sunt împărțite în seturi de antrenament și de testare și, cu multă dificultate, răsturnând aceeași problemă, încercând să mărească acuratețea, echipa trebuie să converge către un anumit model care crede că este ideal pentru problemă. la mana. S-ar putea întâmpla, de asemenea, să fie folosit mai mult de un model și să fie ales cel mai frecvent rezultat. Este o fază de testare și retestare în care experiența ajută mai mult decât teoria.

4. Optimizați și repetați

Ceea ce arată bine în carte, s-ar putea să nu nu fie în viața reală. Rareori se vede că un algoritm de modelare atinge aur la prima trecere. Modelul trebuie monitorizat îndeaproape, iar rezultatele acestuia trebuie documentate și stocate, astfel încât modelul să poată fi reinstruit, continuu, astfel încât să se îmbunătățească în continuare. Ar putea fi, de asemenea, necesară și alte optimizări, după cum consideră de cuviință echipa de știință a datelor, din când în când.

5. Întreținere

Ca orice alt produs software, ar avea nevoie de întreținere pentru a se asigura că nu se antrenează pe noile date nedorite primite sau că este capabil să se adapteze la unele schimbări noi în fluxul de date etc.

De ce nu își poate obține fiecare companie o echipă de știință a datelor?

Știința datelor este un domeniu relativ nou și este foarte puțin probabil ca companiile din întreaga lume să încerce să-și construiască propria echipă de știință a datelor, de la zero. Provocările încep chiar din procesul de angajare, deoarece veți avea nevoie de oameni cu un set de abilități specializate și un pic de experiență. S-ar putea să fie nevoie chiar să luați ajutorul cuiva care are experiență în formarea unei echipe de știință a datelor și care a făcut-o înainte. Sună aproape ca și cum ai forma un grup de lucru pentru armată, nu? Abordarea datelor mari nu este mai puțin dificilă, permiteți-mi să vă asigur. Acest lucru lasă o mulțime de teren de joc pentru furnizorii de servicii și este timpul ca aceștia să formeze persoane capabile în organizația lor și să profite de ziua.