Jerry este managerul de marketing la o mică firmă de design și publicitate pe internet. Șeful lui Jerry îi cere să dezvolte un set de date care să conțină informații despre utilizatorii de internet. Compania va folosi aceste date pentru a determina ce tipuri de persoane folosesc internetul și cum poate firma să își comercializeze serviciile acestui grup de utilizatori.
Pentru a-și îndeplini sarcina, Jerry creează un sondaj online și plasează linkuri către sondaj pe mai multe site-uri web populare. În două săptămâni, Jerry a colectat suficiente date pentru a începe analiza, dar descoperă că datele sale trebuie denormalizate. El observă, de asemenea, că la unele observații din set lipsesc valori sau par să conțină valori nevalide. Jerry își dă seama că trebuie să aibă loc o muncă suplimentară asupra datelor înainte de a începe analiza.
Scopul studiului pregătirii datelor este să:
- Explicați conceptul și scopul curățării datelor
- Enumerați soluțiile posibile pentru gestionarea datelor lipsă
- Explicați rolul și efectuați metode de bază pentru reducerea datelor
- Definiți și gestionați datele inconsecvente
- Discutați despre importanta și procesul de reducere a atributelor
Amintiți-vă faptul că metodologia CRISP Data Mining necesită trei faze înainte ca orice model de minerit a datelor să fie construit. În paragrafele de mai sus, Jerry are o serie de sarcini înaintea lui, fiecare dintre ele intră în una dintre primele trei faze ale CRISP. În primul rând, Jerry trebuie să se asigure că a dezvoltat o înțelegere organizațională clară. Care este scopul acestui proiect pentru angajatorul său? De ce chestionează utilizatorii de internet? Care aspecte sunt importante de colectat, care ar fi bine să le aveți și care ar fi irelevante sau chiar ar distrage atenția de la proiect? După ce datele sunt colectate, cine va avea acces la setul de date și prin ce mecanisme? Cum se va asigura compania că confidențialitatea este protejată? La toate aceste întrebări, și poate la altele, ar trebui să se răspundă înainte ca Jerry să creeze sondajul menționat în al doilea paragraf de mai sus.
Odată răspuns, Jerry poate începe să-și elaboreze sondajul. Aici intră în proces înțelegerea datelor. Ce sistem de baze de date va folosi? Ce software de sondaj? Va folosi un instrument disponibil public, cum ar fi SurveyMonkey™, un produs comercial sau ceva original? Dacă folosește un instrument disponibil public, cum va accesa și extrage datele pentru minerit? Poate avea încredere în această terță parte pentru a-și asigura datele și, dacă da, de ce? Cum va fi proiectată baza de date de bază? Ce mecanisme vor fi puse în aplicare pentru a asigura coerența și integritatea datelor? Toate acestea sunt trebări de înțelegere a datelor. Un exemplu simplu de asigurare a coerenței ar putea fi dacă orașul de reședință al unei persoane ar fi colectat ca parte a datelor. Dacă sondajul online oferă doar o casetă de text deschisă pentru introducere, respondenții ar putea pune aproape orice ca oraș de origine. S-ar putea să pună New York, NY, N.Y., Nwe York sau orice alte combinații posibile, inclusiv greșeli de scriere. Acest lucru ar putea fi evitat forțând utilizatorii să-și selecteze orașul de domiciliu dintr-un meniu drop-down, dar, având în vedere numărul de orașe care există în majoritatea țărilor, lista ar putea fi inacceptabil de lungă! Deci alegerea modului de a gestiona această potențială problemă de consistență a datelor nu este neapărat una evidentă sau ușoară, iar acesta este doar unul dintre multele aspecte care trebuie colectate. În timp ce „stat de origine” sau „țara” ar putea fi rezonabil să se limiteze la un meniu drop-down, „orașul” poate fi introdus manual într-o casetă de text, cu un fel de proces de corectare a datelor care urmează să fie aplicat ulterior.
„Ulterior” va veni odată ce sondajul a fost dezvoltat și implementat și datele au fost colectate. Cu datele la locul lor, a treia fază CRISP-DM, pregătirea datelor, poate începe. Dacă nu ați instalat încă LibreOffice și RapidMiner și doriți să lucrați cu exemplele oferite în restul cărții, acum ar fi un moment bun să continuați și să instalați aceste aplicații. Amintiți-vă că ambele sunt disponibile gratuit pentru descărcare și instalare prin Internet, iar linkurile către ambele aplicații au fost prezentate anterior. Vom începe prin a face unele pregătiri de date în LibreOffice Base (aplicația de bază de date), LibreOffice Calc (aplicația foilor de calcul). ), apoi treceți la alte instrumente de pregătire a datelor în RapidMiner. Ar trebui să înțelegeți că exemplele de pregătire a datelor din acest ghid sunt doar un subset al abordărilor posibile de pregătire a datelor.
Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu
© 2022 MultiMedia Publishing, Mineritul de date
Lasă un răspuns