Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Data mining » Data Mining (Mineritul datelor) – Rezumat schematic

Data Mining (Mineritul datelor) – Rezumat schematic

postat în: Data mining 0

Ce este Data Mining?

  • Termen inventat pentru confluența ideilor din statistici și informatică (învățare automată (Machine Learning) și metode de baze de date) aplicate bazelor de date mari (Big Data) din știință, inginerie și afaceri.
  • Există multe definiții și multe dezbateri despre ceea ce este și ce nu este. Terminologia nu este standard. De ex. părtinire, clasificare, predicție, caracteristică = variabilă independentă; țintă = variabilă dependentă; caz = exemplu..

Definiții cuprinzătoare și înguste

  • Definiția cuprinzătoare include metode statistice tradiționale, Definiția îngustă subliniază metodele automatizate și euristice.
  • Mineritul datelor, dragarea datelor, căutări informale de informații
  • Descoperirea cunoștințelor în bazele de date (Knowledge Discovery in Databases, KDD)

Grupul Gartner: „Exploatarea datelor este procesul de descoperire a unor corelații, modele și tendințe noi semnificative prin trecerea prin cantități mari de date stocate în depozite, folosind tehnologii de recunoaștere a modelelor, precum și tehnici statistice și matematice.

Cine influențează

  • Piața: De la concentrarea pe produs / serviciu până la concentrarea pe client
  • IT: De la concentrarea pe solduri actualizate până la concentrarea pe tiparele în tranzacții – Data Warehouses (Depozite de date) – OLAP
  • Scăderea dramatică a costurilor de stocare: baze de date imense
  • Captarea automată de date a tranzacțiilor – de ex. Coduri de bare, dispozitive POS, clicuri de mouse, date despre locație (GPS, telefoane mobile)
  • Internet: interacțiuni personalizate, date longitudinale

Disciplinele de bază

  • Statistici (adaptate pentru dimensiunile datelor din secolul 21 și cerințele de viteză). Exemple:
    • Descriptiv: vizualizare
    • Modele (DMD): regresie, analiză cluster
  • Învățare automată (Machine Learning): de ex. Rețele neuronale
  • Recuperarea bazei de date: de ex. Regulile de asociere
  • Dezvoltări paralele: de ex. Metode arborescente, Vecinii cei mai apropiați, OLAP-EDA

Proces

  1. Dezvoltă înțelegerea aplicației, a obiectivelor
  2. Crează set de date pentru studiu (adesea din Data Warehouse)
  3. Curăță și preprocesează date
  4. Reducerea și proiecția datelor
  5. Alegerea activității mineritului de date
  6. Alegerea algoritmilor de extragere a datelor
  7. Utilizarea algoritmilor pentru a efectua sarcina
  8. Interpretarea și iterarea prin 1-7, dacă este necesar, a mineritului de date
  9. Implementare: integrare în sistemele operaționale.

(4,5,6,7,8 = mineritul datelor)

Metodologia SEMMA (SAS)

  • Eșantion din seturi de date, partiție în formare, validare și seturi de date de testare
  • Explorare setul de date statistic și grafic
  • Modificare: transformare variabilele, introducere valorile lipsă
  • Model: se potrivesc modelelor, de ex. regresie, arbore de clasificare, rețea neuronală
  • Evaluare: comparare modele folosind partiții, seturi de date de testare

Aplicații ilustrative

  • Managementul relațiilor cu clienții
    • Marketing țintit
      • Problemă de afaceri: utilizați lista de potențiali pentru campania de expediere directă
      • Soluție: utilizați Data Mining pentru a identifica cei mai promițători respondenți care combină datele demografice și geografice cu datele despre comportamentul de cumpărare din trecut
      •  Beneficiu: Rată de răspuns mai bună, economii în costul campaniei
    • Predicția de uzură / Analiza Churn
      • Problemă de afaceri: preveniți pierderea de clienți, evitați adăugarea de clienți predispuși
      • Soluție: utilizați rețele neuronale, analize de serii temporale pentru a identifica tiparele tipice de utilizare a telefonului clienților cu potențială defectare și cu potențialul de a defecta
      • Beneficiu: Păstrarea clienților, promoții mai eficiente
    • Detectarea fraudei
      • Problemă de afaceri: frauda crește costurile sau reduce veniturile
      • Soluție: utilizați regresia logistică, rețelele neuronale pentru a identifica caracteristicile cazurilor frauduloase pentru a preveni în viitor sau pentru a urmări mai energic
      • Beneficiu: creșterea profiturilor prin reducerea clienților nedoriti
    • Analiza de risc
      • Problemă de afaceri: reduceți riscul de împrumuturi către clienți rău platnici
      • Soluție: utilizați modele de notare a creditelor folosind analize discriminante pentru a crea funcții de scor care separă clienții riscanți
      • Beneficiu: scăderea costului datoriilor neperformante
  • Finanțe
    • Problemă de afaceri: Prețul obligațiunilor corporative depinde de mai mulți factori, de profilul de risc al companiei, de vechimea datoriilor, de dividende, de istoricul anterior etc.
    • Abordarea soluției: prin DM, dezvoltați modele mai precise de estimare a prețurilor.
  • Comerț electronic și Internet
    • Filtrare colaborativă – Sisteme de recomandare
      • Oportunitate de afaceri: utilizatorii evaluează articolele pe web. Cum se utilizează informații de la alți utilizatori pentru a deduce evaluări pentru un anumit utilizator?
      • Soluție: utilizarea unei tehnici cunoscute sub numele de filtrare colaborativă
      • Beneficiu: creșteți veniturile prin vânzarea încrucișată, creșterea vânzărilor
    • Clicuri către clienți
      •  Problemă de afaceri: 50% dintre clienții Dell le comandă computerul prin web. Cu toate acestea, rata de retenție este de 0,5%, adică procentul de vizitatori ai paginii web Dell care devin clienți.
      • Abordarea soluției: prin secvența clicurilor lor, gruparea clienților și site-ul web de proiectare, intervenții pentru maximizarea numărului de clienți care cumpără în cele din urmă.
      • Beneficiu: creșteți veniturile

Aplicații emergente majore

  • Spam
  • Bioinformatică / Genomică
  • Date despre istoricul medical – daune de asigurare
  • Personalizarea serviciilor în comerțul electronic
  • Etichete RF
  • Securitate :
    • Expedieri de containere
    • Detectarea intruziunilor în rețea

Concepte de bază

  • Tipuri de date:
    • Numerice
      • Continui – raport și interval
      • Discrete
      • Nevoia de binning
    • Categorice – ordonate și neordonate
    • Binare
  • Suprapotrivire și generalizare
  • Regularizare: penalizare pentru complexitatea modelului
  • Distanța
  • Blestemul dimensionalității
  • Eșantionare aleatorie și stratificată, re-eșantionare
  • Funcții de pierdere

Data Mining - Regresie cu suprapotrivire

Caracteristicile tipice

  • Formatul „Standard” este foaia de calcul:
    • Rând = unitate de observare, coloană = variabilă
  • Multe rânduri, multe coloane
  • Multe rânduri moderează numărul de coloane (de exemplu, apeluri telefonice)
  • Multe coloane, număr moderat de rânduri (de exemplu, genomică)
  • Oportunist (adesea produs secundar al tranzacțiilor)
    • Nu din experimente proiectate
    • Adesea are valori aberante, lipsesc date

Data Minig - Performanța relativă

Sursa: Nitin Patel, Data Mining. Massachusetts Institute of Technology: MIT OpenCourseWare. Licența: CC BY-NC-SA.. Traducere și adaptare Nicolae Sfetcu

Articol publicat de MultiMedia Publishing sub licența CC BY-NC-SA

Ghid WordPress pentru începători
Ghid WordPress pentru începători

WordPress combină simplitatea pentru utilizatorii şi editori cu complexitate suportului software pentru dezvoltatori. Acest lucru îl face mai flexibil, fiind în acelaşi timp uşor de utilizat. Simplitatea sa face posibilă instalarea şi publicarea online rapid. Nimic nu ar trebui să … Citeşte mai mult

Nu a fost votat $2,99$3,49 Selectează opțiunile
Promovarea afacerilor prin campanii de marketing online
Promovarea afacerilor prin campanii de marketing online

Marketing online poate să facă oricine. La un moment dat , firma ta are sute de opţiuni pentru desfăşurarea unei campanii de marketing. Totul depinde de alegerile făcute. Poţi să scrii articole pe blog, să atragi clienţi cu anunțuri cu … Citeşte mai mult

Nu a fost votat $3,99$9,91 Selectează opțiunile
PowerPoint - Ghid pentru începători
PowerPoint – Ghid pentru începători

PowerPoint este un instrument excelent pentru prezentări de orice fel, fie în clasă, fie în cadrul unei conferințe. O prezentare PowerPoint este formată dintr-o serie de diapozitive care pot fi proiectate (afișate electronic) sau tipărite într-o varietate de formate de … Citeşte mai mult

Nu a fost votat $0,00 Selectează opțiunile

Faci un comentariu sau dai un răspuns?

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *