Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Cross-industry standard process for data mining (CRISP-DM)

Cross-industry standard process for data mining (CRISP-DM)

Cross-industry standard process for data mining (Procesul standard transindustrial pentru extragerea datelor), cunoscut sub numele de CRISP-DM, este un model de proces standard deschis care descrie abordările comune utilizate de experții în mineritul datelor. Este cel mai utilizat model de analiză.

În 2015, IBM a lansat o nouă metodologie denumită Analytics Solutions Unified Method (Metodă unificată de soluții analitice) pentru exploatarea datelor / analiză predictivă  (cunoscută și sub numele de ASUM-DM) care rafinează și extinde CRISP-DM.

Istorie

CRISP-DM a fost conceput în 1996 și a devenit un proiect al Uniunii Europene în cadrul inițiativei de finanțare ESPRIT în 1997. Proiectul a fost condus de cinci companii: Integral Solutions Ltd (ISL), Teradata, Daimler AG, NCR Corporation și OHRA, o companie de asigurări.

Acest consorțiu de bază s-a dezvoltat  în cadrul proiectului: ISL, ulterior achiziționat și fuzionat în SPSS. Gigantul de calculatoare NCR Corporation a produs depozitul de date Teradata și propriul software de extragere a datelor. Daimler-Benz avea o echipă semnificativă de minerit de date. OHRA tocmai începea să exploreze utilizarea potențială a exploatării datelor.

Prima versiune a metodologiei a fost prezentată la cel de-al 4-lea atelier CRISP-DM SIG de la Bruxelles în martie 1999 și publicată ca ghid pas cu pas de extragere a datelor mai târziu în acel an.

Între 2006 și 2008 s-a format un CRISP-DM 2.0 SIG și s-au discutat despre actualizarea modelului de proces CRISP-DM. Starea actuală a acestor eforturi nu este cunoscută. Cu toate acestea, site-ul original crisp-dm.org citat în recenzii, și site-ul web CRISP-DM 2.0 SIG, nu mai sunt active.

În timp ce mulți practicanți non-IBM în domeniul mineritului de date folosesc CRISP-DM, IBM este corporația principală care utilizează în prezent modelul de proces CRISP-DM. Aceasta face ca unele dintre vechile documente CRISP-DM să fie disponibile pentru descărcare și le-a încorporat în produsul său SPSS Modeler.

Pe baza cercetărilor actuale, CRISP-DM este cea mai utilizată formă de model de extragere a datelor datorită diferitelor sale avantaje care au rezolvat problemele existente în industriile de minerit a datelor. Unele dintre dezavantajele acestui model este că nu desfășoară activități de gestionare a proiectelor. Faptul care stă la baza succesului CRISP-DM este că este neutru în industrie, ca instrument și aplicație.

Faze majore

CRISP-DM
Diagrama procesului care arată relația dintre diferitele faze ale CRISP-DM. Sursa: Kenneth Jensen, https://en.wikipedia.org/wiki/File:CRISP-DM_Process_Diagram.png, CC Attribution-Share Alike 3.0 Unported license. Traducere Nicolae Sfetcu

CRISP-DM împarte procesul de extragere a datelor în șase faze majore:

  • Înțelegerea afacerii
  • Înțelegerea datelor
  • Pregătirea datelor
  • Modelare
  • Evaluare
  • Implementare

Secvența fazelor nu este strictă și se mișcă înainte și înapoi între diferite faze, deoarece este întotdeauna necesară. Săgețile din diagrama procesului indică cele mai importante și frecvente dependențe între faze. Cercul exterior din diagramă simbolizează natura ciclică a exploatării datelor în sine. Un proces de extragere a datelor continuă după ce a fost implementată o soluție. Lecțiile învățate în timpul procesului pot declanșa întrebări de afaceri noi, adesea mai concentrate, iar procesele ulterioare de extragere a datelor vor beneficia de experiențele celor anterioare.

Sondaje

Sondajele efectuate pe același site web (KDNuggets) în 2002, 2004, 2007 și 2014 arată că a fost principala metodologie utilizată de minerii de date din industrie care au decis să răspundă la sondaj. Singura altă abordare a mineritului de date menționată în aceste sondaje a fost SEMMA. Cu toate acestea, SAS Institute afirmă în mod clar că SEMMA nu este o metodologie de extragere a datelor, ci mai degrabă o „organizare logică a setului de instrumente funcționale al SAS Enterprise Miner”. O revizuire și o critică a modelelor de proces de extragere a datelor în 2009 a numit CRISP-DM „standardul de facto pentru dezvoltarea proiectelor de extragere a datelor și de descoperire a cunoștințelor.” Alte recenzii ale modelelor CRISP-DM și ale proceselor de extragere a datelor includ revizuirea lui Kurgan și Musilek din 2006, și comparația între CRISP-DM și SEMMA a lui Azevedo și Santos din 2008 Eforturile de actualizare a metodologiei au început în 2006, dar nu au dus la 30 iunie 2015 la o nouă versiune, iar „Grupul de interes special” (SIG) responsabil împreună cu site-ul a dispărut de mult.

Include texte traduse din Wikipedia

Telelucru (Telework)
Telelucru (Telework)

Telelucrul, ca un nou mod de a lucra prin efectuarea unei activităţi (forme de muncă) flexibile în timp şi la distanţă, utilizând tehnologia informaţională şi comunicaţiile avansate, se concretizează în teleactivităţi şi teleservicii. În ultimii ani, s-au dezvoltat rapid noi … Citeşte mai mult

Nu a fost votat 0.00 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Cunoaștere și Informații
Cunoaștere și Informații

Plonjează în universul complex al cunoașterii și informațiilor cu această carte captivantă

Nu a fost votat 28.95 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *