Există multe instrumente software concepute pentru a facilita extragerea datelor, cu toate acestea, multe dintre acestea sunt adesea costisitoare și complicat de instalat, configurat și utilizat. Mai simplu spus, nu sunt potrivite pentru învățarea elementelor de bază ale extragerii datelor. Vă recomand LibreOffice Calc și Base împreună cu un produs software open source numit RapidMiner, dezvoltat de Rapid-I, GmbH din Dortmund, Germania. Deoarece LibreOffice este disponibil pe scară largă și este foarte intuitiv, este un loc logic pentru a începe predarea conceptelor de data mining la nivel introductiv. Cu toate acestea, îi lipsesc unele dintre instrumentele pe care minerii de date le folosesc. RapidMiner este o completare ideală pentru LibreOffice și a fost selectat pentru acest ghid din mai multe motive:
- RapidMiner oferă funcții specifice de extragere a datelor care nu se găsesc în prezent în LibreOffice, cum ar fi arbori de decizie și reguli de asociere, pe care le veți învăța să le utilizați mai târziu în acest ghid.
- RapidMiner este ușor de instalat și va rula pe aproape orice computer.
- Producătorul lui RapidMiner oferă o ediție comunitară a software-ului său, făcându-l gratuit de obținut și utilizat de cititori.
- Atât RapidMiner, cât și LibreOffice oferă medii intuitive de interfață grafică cu utilizatorul, care facilitează publicului general care utilizează computere să experimenteze puterea extragerii de date.
Toate exemplele de utilizare a LibreOffice sau RapidMiner din acest ghid vor fi ilustrate într-un mediu Microsoft Windows, deși trebuie remarcat că aceste pachete software vor funcționa pe o varietate de platforme de calcul. Se recomandă să descărcați și să instalați acum aceste două pachete de software pe computer, astfel încât să puteți lucra împreună cu exemplele din ghid dacă doriți.
- LibreOffice poate fi descărcat de la: http://www. LibreOffice.org/
- RapidMiner Studio Free poate fi descărcată de la: https://my.rapidminer.com/nexus/account/index.html#downloads
Procesul de minerit de date
Deși rădăcinile mineritului de date pot fi urmărite până la sfârșitul anilor 1980, în cea mai mare parte a anilor 1990 domeniul era încă la început. Mineritul datelor era încă în curs de definire și perfecționare. A fost în mare parte un conglomerat de modele de date, algoritmi de analiză și rezultate ad-hoc. În 1999, mai multe companii importante, inclusiv producătorul auto Daimler-Benz, furnizorul de asigurări OHRA, producătorul de hardware și software NCR Corp. și producătorul de software statistic SPSS, Inc. au început să lucreze împreună pentru a formaliza și standardiza o abordare a mineritului datelor. Rezultatul muncii lor a fost CRISP-DM, ”Procesul standard de industrie pentru mineritul datelor” (CRoss-Industry Standard Process for Data Mining). Deși participanții la crearea CRISP-DM au avut cu siguranță interese în anumite instrumente software și hardware, procesul a fost conceput independent de orice instrument specific. A fost scrisă în așa fel încât să fie de natură conceptuală – ceva care ar putea fi aplicat independent de orice anumit instrument sau tip de date. Procesul constă din șase pași sau faze, așa cum este ilustrat în Figura.
(Model conceptual CRISP-DM pentru Data Mining)
CRISP-DM Pasul 1: Înțelegerea afacerilor (organizaționale).
Primul pas în CRISP-DM este înțelegerea afacerilor, sau ceea ce va fi denumit în acest text înțelegere organizațională, deoarece organizațiile de toate tipurile, nu doar companiile, pot folosi mineritul de date pentru a răspunde la întrebări și a rezolva probleme. Acest pas este crucial pentru un rezultat de succes al extragerii de date, dar este adesea trecut cu vederea, deoarece oamenii încearcă să se afunde direct în mineritul datelor. Acest lucru este natural, desigur, suntem adesea nerăbdători să generăm rezultate interesante; vrem să găsim răspunsuri. Dar nu ați începe să construiți o mașină fără să definiți mai întâi ce doriți să facă vehiculul și fără să proiectați mai întâi ceea ce veți construi. Luați în considerare aceste rânduri des citate din Aventurile lui Alice în Țara Minunilor a lui Lewis Carroll:
”Vrei să-mi spui, te rog, pe ce drum ar trebui să merg de aici?”
”Asta depinde foarte mult de unde vrei să ajungi,” spuse Pisica.
”Nu prea îmi pasă unde…” a spus Alice.
„Atunci nu contează în ce direcție mergi”, a spus Pisica.
„… atâta timp cât ajung UNDEVA”, a adăugat Alice ca explicație.
”Oh, sigur vei face asta,” spuse Pisica, ”dacă mergi suficient de mult.”
Într-adevăr. Puteți extrage date toată ziua și noaptea, dar dacă nu știți ce doriți să știți, dacă nu ați definit nicio întrebare la care să răspundeți, atunci este mai puțin probabil ca eforturile dvs. de extragere a datelor să fie fructuoase. Începeți cu idei de nivel înalt: ce îi face pe clienții mei să se plângă atât de mult? Cum îmi pot crește marja de profit pe unitate? Cum pot anticipa și remedia defectele de fabricație și, astfel, să evit expedierea unui produs defect? De acolo, puteți începe să dezvoltați întrebările mai specifice la care doriți să răspundeți, iar acest lucru vă va permite să treceți la pasul următor…
Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu
© MultiMedia Publishing, Mineritul de date
Lasă un răspuns