Ce este Data Mining?
- Termen inventat pentru confluența ideilor din statistici și informatică (învățare automată (Machine Learning) și metode de baze de date) aplicate bazelor de date mari (Big Data) din știință, inginerie și afaceri.
- Există multe definiții și multe dezbateri despre ceea ce este și ce nu este. Terminologia nu este standard. De ex. părtinire, clasificare, predicție, caracteristică = variabilă independentă; țintă = variabilă dependentă; caz = exemplu..
Definiții cuprinzătoare și înguste
- Definiția cuprinzătoare include metode statistice tradiționale, Definiția îngustă subliniază metodele automatizate și euristice.
- Mineritul datelor, dragarea datelor, căutări informale de informații
- Descoperirea cunoștințelor în bazele de date (Knowledge Discovery in Databases, KDD)
Grupul Gartner: „Exploatarea datelor este procesul de descoperire a unor corelații, modele și tendințe noi semnificative prin trecerea prin cantități mari de date stocate în depozite, folosind tehnologii de recunoaștere a modelelor, precum și tehnici statistice și matematice.”
Cine influențează
- Piața: De la concentrarea pe produs / serviciu până la concentrarea pe client
- IT: De la concentrarea pe solduri actualizate până la concentrarea pe tiparele în tranzacții – Data Warehouses (Depozite de date) – OLAP
- Scăderea dramatică a costurilor de stocare: baze de date imense
- Captarea automată de date a tranzacțiilor – de ex. Coduri de bare, dispozitive POS, clicuri de mouse, date despre locație (GPS, telefoane mobile)
- Internet: interacțiuni personalizate, date longitudinale
Disciplinele de bază
- Statistici (adaptate pentru dimensiunile datelor din secolul 21 și cerințele de viteză). Exemple:
- Descriptiv: vizualizare
- Modele (DMD): regresie, analiză cluster
- Învățare automată (Machine Learning): de ex. Rețele neuronale
- Recuperarea bazei de date: de ex. Regulile de asociere
- Dezvoltări paralele: de ex. Metode arborescente, Vecinii cei mai apropiați, OLAP-EDA
Proces
- Dezvoltă înțelegerea aplicației, a obiectivelor
- Crează set de date pentru studiu (adesea din Data Warehouse)
- Curăță și preprocesează date
- Reducerea și proiecția datelor
- Alegerea activității mineritului de date
- Alegerea algoritmilor de extragere a datelor
- Utilizarea algoritmilor pentru a efectua sarcina
- Interpretarea și iterarea prin 1-7, dacă este necesar, a mineritului de date
- Implementare: integrare în sistemele operaționale.
(4,5,6,7,8 = mineritul datelor)
Metodologia SEMMA (SAS)
- Eșantion din seturi de date, partiție în formare, validare și seturi de date de testare
- Explorare setul de date statistic și grafic
- Modificare: transformare variabilele, introducere valorile lipsă
- Model: se potrivesc modelelor, de ex. regresie, arbore de clasificare, rețea neuronală
- Evaluare: comparare modele folosind partiții, seturi de date de testare
Aplicații ilustrative
- Managementul relațiilor cu clienții
- Marketing țintit
- Problemă de afaceri: utilizați lista de potențiali pentru campania de expediere directă
- Soluție: utilizați Data Mining pentru a identifica cei mai promițători respondenți care combină datele demografice și geografice cu datele despre comportamentul de cumpărare din trecut
- Beneficiu: Rată de răspuns mai bună, economii în costul campaniei
- Predicția de uzură / Analiza Churn
- Problemă de afaceri: preveniți pierderea de clienți, evitați adăugarea de clienți predispuși
- Soluție: utilizați rețele neuronale, analize de serii temporale pentru a identifica tiparele tipice de utilizare a telefonului clienților cu potențială defectare și cu potențialul de a defecta
- Beneficiu: Păstrarea clienților, promoții mai eficiente
- Detectarea fraudei
- Problemă de afaceri: frauda crește costurile sau reduce veniturile
- Soluție: utilizați regresia logistică, rețelele neuronale pentru a identifica caracteristicile cazurilor frauduloase pentru a preveni în viitor sau pentru a urmări mai energic
- Beneficiu: creșterea profiturilor prin reducerea clienților nedoriti
- Analiza de risc
- Problemă de afaceri: reduceți riscul de împrumuturi către clienți rău platnici
- Soluție: utilizați modele de notare a creditelor folosind analize discriminante pentru a crea funcții de scor care separă clienții riscanți
- Beneficiu: scăderea costului datoriilor neperformante
- Marketing țintit
- Finanțe
- Problemă de afaceri: Prețul obligațiunilor corporative depinde de mai mulți factori, de profilul de risc al companiei, de vechimea datoriilor, de dividende, de istoricul anterior etc.
- Abordarea soluției: prin DM, dezvoltați modele mai precise de estimare a prețurilor.
- Comerț electronic și Internet
- Filtrare colaborativă – Sisteme de recomandare
- Oportunitate de afaceri: utilizatorii evaluează articolele pe web. Cum se utilizează informații de la alți utilizatori pentru a deduce evaluări pentru un anumit utilizator?
- Soluție: utilizarea unei tehnici cunoscute sub numele de filtrare colaborativă
- Beneficiu: creșteți veniturile prin vânzarea încrucișată, creșterea vânzărilor
- Clicuri către clienți
- Problemă de afaceri: 50% dintre clienții Dell le comandă computerul prin web. Cu toate acestea, rata de retenție este de 0,5%, adică procentul de vizitatori ai paginii web Dell care devin clienți.
- Abordarea soluției: prin secvența clicurilor lor, gruparea clienților și site-ul web de proiectare, intervenții pentru maximizarea numărului de clienți care cumpără în cele din urmă.
- Beneficiu: creșteți veniturile
- Filtrare colaborativă – Sisteme de recomandare
Aplicații emergente majore
- Spam
- Bioinformatică / Genomică
- Date despre istoricul medical – daune de asigurare
- Personalizarea serviciilor în comerțul electronic
- Etichete RF
- Securitate :
- Expedieri de containere
- Detectarea intruziunilor în rețea
Concepte de bază
- Tipuri de date:
- Numerice
- Continui – raport și interval
- Discrete
- Nevoia de binning
- Categorice – ordonate și neordonate
- Binare
- Numerice
- Suprapotrivire și generalizare
- Regularizare: penalizare pentru complexitatea modelului
- Distanța
- Blestemul dimensionalității
- Eșantionare aleatorie și stratificată, re-eșantionare
- Funcții de pierdere
Caracteristicile tipice
- Formatul „Standard” este foaia de calcul:
- Rând = unitate de observare, coloană = variabilă
- Multe rânduri, multe coloane
- Multe rânduri moderează numărul de coloane (de exemplu, apeluri telefonice)
- Multe coloane, număr moderat de rânduri (de exemplu, genomică)
- Oportunist (adesea produs secundar al tranzacțiilor)
- Nu din experimente proiectate
- Adesea are valori aberante, lipsesc date
Sursa: Nitin Patel, Data Mining. Massachusetts Institute of Technology: MIT OpenCourseWare. Licența: CC BY-NC-SA.. Traducere și adaptare Nicolae Sfetcu
Articol publicat de MultiMedia Publishing sub licența CC BY-NC-SA
Lasă un răspuns