Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Evaluarea și implementarea mineritului datelor cu CRISP-DM

Evaluarea și implementarea mineritului datelor cu CRISP-DM

RapidMiner
(RapidMiner)

CRISP-DM Pasul 5: Evaluarea

Toate analizele datelor au potențialul de fals pozitive. Chiar dacă un model nu dă rezultate false pozitive, este posibil ca modelul să nu găsească modele interesante în datele dvs. Acest lucru se poate datora faptului că modelul nu este bine configurat pentru a găsi ;abloane, ați putea folosi o tehnică greșită, sau pur și simplu nu există nimic interesant în datele dvs. care să fie găsit de model. Faza de evaluare a CRISP-DM este acolo special pentru a vă ajuta să determinați cât de valoros este modelul dvs. și ce ați putea dori să faceți cu el.

Evaluarea poate fi realizată folosind o serie de tehnici, atât de natură matematică, cât și logică. Acest ghid va examina tehnicile de validare încrucișată și de testare a fals pozitivelor folosind RapidMiner. Pentru unele modele, puterea sau tăria indicată de anumite statistici de testare vor fi, de asemenea, discutate. Dincolo de aceste măsuri însă, evaluarea modelului trebuie să includă și un aspect uman. Pe măsură ce indivizii dobândesc experiență și expertiză în domeniul lor, vor avea cunoștințe operaționale care nu pot fi măsurabile în sens matematic, dar sunt totuși indispensabile pentru determinarea valorii unui model de minerit a datelor. Acest element uman va fi, de asemenea, discutat de-a lungul cărții. Folosind atât tehnici de evaluare bazate pe date, cât și instinctive pentru a determina utilitatea unui model, putem decide apoi cum să trecem la…

CRISP-DM Pasul 6: Implementarea

Dacă ați identificat cu succes întrebările, ați pregătit date care pot răspunde la acele întrebări și ați creat un model care trece testul de a fi interesant și util, atunci ați ajuns în punctul de a vă folosi efectiv rezultatele. Aceasta este implementarea și este o perioadă fericită și ocupată pentru un miner de date. Activitățile din această fază includ configurarea automatizării modelului dvs., întâlnirea cu consumatorii pentru rezultatele modelului dvs., integrarea cu sistemele de management sau informații operaționale existente, reintroducerea noilor învățăminte din utilizarea modelului în model pentru a îmbunătăți acuratețea și performanța acestuia și monitorizarea și măsurarea rezultatelor utilizării modelului. Fiți pregătiți pentru o oarecare neîncredere în modelul dvs. la început — puteți chiar să vă confruntați cu respingere din partea unor grupuri care pot simți că locurile de muncă sunt amenințate de acest nou instrument sau care ar putea să nu aibă încredere în fiabilitatea sau acuratețea rezultatelor. Dar nu lăsați acest lucru să vă descurajeze! Amintiți-vă că CBS nu avea încredere în predicțiile inițiale ale UNIVAC, unul dintre primele sisteme informatice comerciale, când rețeaua l-a folosit pentru a prezice rezultatul final al alegerilor prezidențiale din 1952 în noaptea alegerilor. Cu doar 5% din voturi numărate, UNIVAC a prezis că Dwight D. Eisenhower va învinge pe Adlai Stevenson într-o victorie răsunătoare; ceva ce niciun sondaj sau membru al alegerilor nu îl considera probabil sau nici măcar posibil. De fapt, cei mai mulți „experți” se așteptau ca Stevenson să câștige cu o marjă îngustă, unii recunoscând că, pentru că se așteptau să fie aproape, Eisenhower ar putea câștiga, de asemenea, la un vot strâns. Abia târziu în acea noapte, când numărătoarea voturilor umane a confirmat că Eisenhower câștigase detașat alegerile, CBS a fost difuzat pentru a recunoaște mai întâi că Eisenhower a câștigat și, în al doilea rând, că UNIVAC a prezis chiar acest rezultat cu câteva ore mai devreme, dar rețeaua refuzase să aibă încredere în predicția computerului. UNIVAC a fost justificată mai târziu, când s-a constatat că predicția sa se situează în o eroare de1% din ceea ce a arătat în cele din urmă voturile. Noile tehnologii sunt adesea neliniștitoare pentru oameni și, uneori, este greu să ai încredere în ceea ce arată computerele. Fiți răbdător și specific în timp ce explicați cum funcționează un nou model de mineritul datelor, ce înseamnă rezultatele și cum pot fi utilizate.

În timp ce exemplul UNIVAC ilustrează puterea și utilitatea modelării computerizate predictive (în ciuda neîncrederii inerente), nici nu ar trebui interpretat ca un motiv de încredere oarbă. Pe vremea UNIVAC, cea mai mare problemă era noutatea tehnologiei. Făcea ceva pe care nimeni nu se aștepta sau nu o putea explica și, pentru că puțini oameni înțeleg cum funcționează computerul, era greu să ai încredere în el. Astăzi ne confruntăm cu o problemă diferită, dar la fel de îngrijorătoare: computerele au devenit omniprezente și, prea des, nu punem la îndoială suficient dacă rezultatele sunt sau nu corecte și semnificative. Pentru ca modelele de minerit a datelor să fie implementate eficient, trebuie să se echilibreze. Prin comunicarea clară a funcției și a utilității unui model părților interesate, testând și dovedindu-l în mod amănunțit, apoi prin planificarea și monitorizarea implementării acestuia, modelele de mineritul datelor pot fi introduse eficient în fluxul organizațional. Cu toate acestea, eșecul de a gestiona cu atenție și eficient implementarea poate distruge chiar și cele mai bune și mai eficiente modele.

MINERITUL DATELOR ȘI TU

Deoarece mineritul datelor poate fi aplicat într-o gamă atât de largă de domenii profesionale, acest ghid a fost scris cu intenția de a explica mineritul datelor simplu, folosind instrumente software care sunt accesibile și intuitive pentru toată lumea. Este posibil să nu fi studiat algoritmi, structuri de date sau programare, dar este posibil să aveți întrebări la care se poate răspunde prin mineritul datelor. Sperăm că prin scrierea pe un ton informal și prin ilustrarea conceptelor de extragere a datelor cu exemple accesibile și logice, mineritul datelor poate deveni un instrument util pentru dvs., indiferent de nivelul anterior de analiză a datelor sau de expertiză în calcul. Să începem să minerim!

Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu

© 2022 MultiMedia Publishing, Mineritul de date

Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat $3,99$7,99 Selectează opțiunile
Căutarea, extragerea, organizarea și evaluarea informațiilor
Căutarea, extragerea, organizarea și evaluarea informațiilor

Informația, ca și concept, include o mare diversitate de sensuri în contexte diferite, de la cele zilnice până la cele tehnice. Conceptul de informație este strâns legat de noțiunile de restricție, comunicare, control, date, forme, educație, cunoaștere, înțelegere, stimul mental, … Citeşte mai mult

Nu a fost votat $3,99$9,61 Selectează opțiunile
Rețele de comunicații 5G
Rețele de comunicații 5G

Datorită impactului său așteptat în economie și societate, a cincea generație de telecomunicații mobile (5G) este una dintre cele mai importante inovații ale timpului nostru. Așteptările cresc cu capacitățile de bandă largă ale 5G, accesibile tuturor și peste tot, la … Citeşte mai mult

Nu a fost votat $2,99$6,88 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.