Abordați problemele de învățare automată

Publicat: 2017-11-01

Cuprins arată

Căutați opțiuni gratuite pentru început?

Ce factori trebuie luați în considerare la construirea unui set de date de instruire pentru învățare automată?

Identificarea tipului de algoritm în dezvoltare

Identificarea corectă a „dacă” și „când” Big Data este necesară

A concluziona

Odată cu traiectoria de creștere agresivă a învățării automate, tot mai mulți oameni de știință de date se concentrează pe obținerea rezultatelor pentru a imita aplicațiile practice din lumea reală. Pentru aceasta, se bazează pe seturi de date de instruire pentru a-și antrena modelul și a „învăța” mai bine. Odată făcut acest lucru, acesta este transmis prin date reale pe care nu a fost instruit, folosind un set de date de testare. Prin urmare, setul de date de antrenament de învățare automată este datele pentru care a fost antrenat MLP folosind setul de date de antrenament.

Atât seturile de date de instruire, cât și de testare vor încerca să se alinieze la eșantioanele reprezentative ale populației. Acest lucru asigură că rezultatele vor fi aplicabile universal pentru acest eșantion. Aceasta este învățarea automată pe scurt.

ce să căutați în datele de antrenament

Căutați opțiuni gratuite pentru început?

Dacă sunteți în căutarea unor surse valoroase de baze de date gratuite pentru a vă construi seturile de date de antrenament, atunci opțiunile de mai jos pot fi un punct de plecare excelent pentru dvs.:

UCI- Depozitul de învățare automată
Iris de UCI [Are 3 clase, 50 de mostre pentru fiecare clasă totalizând 150 de puncte de date; o resursă bună pentru începători]
Kaggle
Seturile de date deschise ajută la învățarea lucrurilor și roboților să fie inteligenți și mai utili
ML Bench de R
MIAS
Mulan
DataStock de PromptCloud

Ce factori trebuie luați în considerare la construirea unui set de date de instruire pentru învățare automată ?

1. Cantitatea potrivită

Trebuie să evaluați și să aveți un răspuns pregătit pentru aceste întrebări de bază referitoare la cantitatea de date:

Numărul de înregistrări de luat din bazele de date
Dimensiunea eșantionului necesară pentru a obține rezultatele așteptate ale performanței
Împărțirea datelor pentru antrenament și testare sau utilizarea unei abordări alternative, cum ar fi validarea încrucișată în k-fold

2. Abordarea împărțirii datelor

Aveți nevoie de date pentru a construi modelul și aveți nevoie de date pentru a testa modelul. Ar trebui să existe o metodă de împărțire a setului de date în aceste două părți. Puteți alege o împărțire aleatorie sau o împărțire bazată pe timp. În cel din urmă, regula generală este că datele mai vechi sunt pentru antrenament, iar datele mai noi sunt pentru testare. Unele seturi de date necesită alte abordări, cum ar fi eșantionarea stratificată sau eșantionarea în cluster. Dacă într-adevăr nu sunteți sigur, faceți un mic pilot pentru a vă valida modelul și apoi rotiți-l cu drepturi depline peste bord.

3. Istoria trecută

Mulți cercetători de date au lucrat deja la probleme în trecut și au venit cu seturi de date de instruire pentru nevoile lor specifice de modelare. Lucrul la problemele aplicate de învățare automată facilitează nu numai obținerea setului potrivit de date, ci și o certitudine privind rezultatele anticipate.

Puteți verifica studii care au probleme similare cu problema dvs. actuală și puteți lua datele pentru o mai bună eficacitate a procesului de construire a modelului. Dacă sunteți suficient de norocos să obțineți un număr mare de studii similare efectuate în trecut, puteți să faceți o medie a acestora în scopul construcției dvs.

4. Expertiza domeniului

Filosofia „Garbage In Garbage Out” este extrem de valabilă pentru setul de date de antrenament pentru învățarea automată. Algoritmul de învățare automată va învăța pentru orice date pe care îl alimentați. Deci, dacă datele furnizate ca intrare sunt de bună calitate, atunci algoritmul de învățare dezvoltat va fi și el de bună calitate. De obicei, mostrele pe care le hrănești au nevoie să posede două calități cheie – independența și distribuția identică.

Și cum stabiliți dacă ceea ce este introdus este de bună calitate? Simplu. Rugați un expert în domeniu să treacă prin date cu o pereche de ochi instruiți. El/ea va putea evalua dacă eșantionul utilizat este adecvat, dacă eșantionul este distribuit uniform și dacă eșantionul este independent.

Expertul poate ajuta, de asemenea, la proiectarea datelor, astfel încât să obțineți un grup mai mare fără a compromite principiile de bază ale acoperirii și aplicabilitatea universală. De asemenea, ea poate ajuta la simularea datelor pe care nu le aveți în prezent, dar pe care doriți să le utilizați pentru a antrena programul de învățare automată.

5. Tipul potrivit de transformare a datelor

Odată ce ați procesat datele curate, le puteți transforma în funcție de obiectivele dvs. de formare pentru învățarea automată. Expertiza domeniului și caracteristicile/funcțiile algoritmului vă pot ajuta să determinați tipul potrivit de transformare care trebuie aplicată pentru a porni setul de date de antrenament. Acest pas de inginerie a caracteristicilor ajută la transformarea datelor într-una cea mai potrivită pentru un anumit tip de analiză. Ingineria caracteristicilor poate cuprinde unul sau mai multe dintre procesele de transformare a datelor de mai jos.

A. Scalare – În mod normal, un set de date procesat va avea atribute care utilizează o varietate de scale pentru valori, cum ar fi greutăți (kilograme sau lire sterline), distanță (kilometri sau mile) sau moneda (dolari sau euro). Va trebui să reduceți variațiile în scară pentru un rezultat mult mai bun. Acest pas de scalare a caracteristicilor va ajuta la analiza mai bine a datelor.

b. Descompunere - Cu ajutorul descompunerii funcționale, o variabilă complexă poate fi împărțită în nivel granular în părțile sale constitutive. Aceste părți constitutive individuale pot avea unele proprietăți sau caracteristici inerente care pot crește în întregul proces de construire a învățării automate. Prin urmare, împărțirea pentru a atinge aceste caracteristici este importantă. Ajută la separarea „zgomotului” de elementele sau componentele de care suntem de fapt interesați pentru a construi seturile de date de antrenament. Modul în care o metodă de rețea bayesiană încearcă să împartă o distribuție comună de-a lungul liniei sale cauzale de falie, este un exemplu clasic de descompunere la lucru.

c. Agregarea – La extremul opus al descompunerii se află metoda de agregare. Combină mai multe variabile cu atribute similare într-o singură entitate mai mare. Pentru unele seturi de date de învățare automată, aceasta poate fi o modalitate mai sensibilă de a construi setul de date pentru rezolvarea unei anumite probleme. Un exemplu poate fi modul în care răspunsurile agregate la sondaj pot fi urmărite în loc să se uite la răspunsurile individuale, pentru a rezolva o anumită problemă prin învățarea automată.

Identificarea tipului de algoritm în dezvoltare

Puteți alege un algoritm liniar sau neliniar. Știind după ce tip de algoritm rulați, veți putea evalua mai bine tipul și cantitatea de date necesare pentru construirea setului de date de antrenament. De obicei, algoritmii neliniari sunt considerați mai puternici. Ei sunt capabili să înțeleagă și să stabilească conexiuni în relații neliniare între caracteristicile de intrare și de ieșire.

În ceea ce privește structura generală, acești algoritmi neliniari pot fi mai flexibili și neparametrici (acești algoritmi pot determina nu numai câți parametri sunt necesari, ci și determina ce valori să fie prezente pentru acești parametri pentru a rezolva mai bine o anumită problemă de învățare automată). Deoarece este neliniar, înseamnă că poate afișa un grad ridicat de varianță, adică rezultatele algoritmului pot varia în funcție de ce date sunt utilizate pentru a-l antrena.

Acest lucru înseamnă, de asemenea, că un algoritm neliniar are nevoie de mult mai mult volum de date în setul de date de antrenament pentru a înțelege conexiunile și relațiile complexe dintre diferitele entități care sunt analizate. Cele mai multe dintre întreprinderile mai cunoscute sunt interesate de astfel de algoritmi care continuă să se îmbunătățească pe măsură ce sunt introduse din ce în ce mai multe date în sistemul lor.

Identificarea corectă a „dacă” și „când” Big Data este necesară

Când vorbim despre construirea unui set de date de antrenament, trebuie să evaluăm inteligent dacă este nevoie de date mari (volum foarte mare de date). Dacă da, atunci în ce moment al creării setului de date ar trebui să introducem datele mari. Pe lângă faptul că este costisitoare, introducerea datelor mari poate avea un impact semnificativ asupra timpului de comercializare al construirii setului de date. Cu toate acestea, dacă este absolut inevitabil, atunci trebuie să puneți resurse pentru a obține date mari pentru a face parte din setul dvs. de date de antrenament.

Un exemplu clasic va fi atunci când efectuați modelarea predictivă tradițională. În acest sens, puteți ajunge la un punct de randamente descrescătoare în care randamentele nu vor corespunde cu cantitatea de date pe care ați introdus-o. Este posibil să aveți nevoie de mult mai multe date pentru a depăși această barieră. Evaluând cu atenție modelul ales și problema dvs. specifică în mână, vă puteți da seama când va ajunge acest punct și când veți avea nevoie de un volum mult mai mare de date.

A concluziona

Construirea unui set de date de antrenament conduce la calitatea modelului general de învățare automată. Cu acești factori, vă puteți asigura că construiți un set de date de învățare automată de înaltă performanță și beneficiați de beneficiile unui model de învățare automatizat robust, semnificativ și precis, care a „învățat” dintr-un set de date de antrenament atât de superior.

Sunteți interesat să împărtășiți orice alt factor major care poate influența calitatea setului de date de instruire pentru învățarea automată? Scrieți în comentariile de mai jos și spuneți-ne părerea dvs.