Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » Data Mining (Mineritul datelor) – Rezumat schematic

Data Mining (Mineritul datelor) – Rezumat schematic

postat în: Data mining 0

Ce este Data Mining?

  • Termen inventat pentru confluența ideilor din statistici și informatică (învățare automată (Machine Learning) și metode de baze de date) aplicate bazelor de date mari (Big Data) din știință, inginerie și afaceri.
  • Există multe definiții și multe dezbateri despre ceea ce este și ce nu este. Terminologia nu este standard. De ex. părtinire, clasificare, predicție, caracteristică = variabilă independentă; țintă = variabilă dependentă; caz = exemplu..

Definiții cuprinzătoare și înguste

  • Definiția cuprinzătoare include metode statistice tradiționale, Definiția îngustă subliniază metodele automatizate și euristice.
  • Mineritul datelor, dragarea datelor, căutări informale de informații
  • Descoperirea cunoștințelor în bazele de date (Knowledge Discovery in Databases, KDD)

Grupul Gartner: „Exploatarea datelor este procesul de descoperire a unor corelații, modele și tendințe noi semnificative prin trecerea prin cantități mari de date stocate în depozite, folosind tehnologii de recunoaștere a modelelor, precum și tehnici statistice și matematice.

Cine influențează

  • Piața: De la concentrarea pe produs / serviciu până la concentrarea pe client
  • IT: De la concentrarea pe solduri actualizate până la concentrarea pe tiparele în tranzacții – Data Warehouses (Depozite de date) – OLAP
  • Scăderea dramatică a costurilor de stocare: baze de date imense
  • Captarea automată de date a tranzacțiilor – de ex. Coduri de bare, dispozitive POS, clicuri de mouse, date despre locație (GPS, telefoane mobile)
  • Internet: interacțiuni personalizate, date longitudinale

Disciplinele de bază

  • Statistici (adaptate pentru dimensiunile datelor din secolul 21 și cerințele de viteză). Exemple:
    • Descriptiv: vizualizare
    • Modele (DMD): regresie, analiză cluster
  • Învățare automată (Machine Learning): de ex. Rețele neuronale
  • Recuperarea bazei de date: de ex. Regulile de asociere
  • Dezvoltări paralele: de ex. Metode arborescente, Vecinii cei mai apropiați, OLAP-EDA

Proces

  1. Dezvoltă înțelegerea aplicației, a obiectivelor
  2. Crează set de date pentru studiu (adesea din Data Warehouse)
  3. Curăță și preprocesează date
  4. Reducerea și proiecția datelor
  5. Alegerea activității mineritului de date
  6. Alegerea algoritmilor de extragere a datelor
  7. Utilizarea algoritmilor pentru a efectua sarcina
  8. Interpretarea și iterarea prin 1-7, dacă este necesar, a mineritului de date
  9. Implementare: integrare în sistemele operaționale.

(4,5,6,7,8 = mineritul datelor)

Metodologia SEMMA (SAS)

  • Eșantion din seturi de date, partiție în formare, validare și seturi de date de testare
  • Explorare setul de date statistic și grafic
  • Modificare: transformare variabilele, introducere valorile lipsă
  • Model: se potrivesc modelelor, de ex. regresie, arbore de clasificare, rețea neuronală
  • Evaluare: comparare modele folosind partiții, seturi de date de testare

Aplicații ilustrative

  • Managementul relațiilor cu clienții
    • Marketing țintit
      • Problemă de afaceri: utilizați lista de potențiali pentru campania de expediere directă
      • Soluție: utilizați Data Mining pentru a identifica cei mai promițători respondenți care combină datele demografice și geografice cu datele despre comportamentul de cumpărare din trecut
      •  Beneficiu: Rată de răspuns mai bună, economii în costul campaniei
    • Predicția de uzură / Analiza Churn
      • Problemă de afaceri: preveniți pierderea de clienți, evitați adăugarea de clienți predispuși
      • Soluție: utilizați rețele neuronale, analize de serii temporale pentru a identifica tiparele tipice de utilizare a telefonului clienților cu potențială defectare și cu potențialul de a defecta
      • Beneficiu: Păstrarea clienților, promoții mai eficiente
    • Detectarea fraudei
      • Problemă de afaceri: frauda crește costurile sau reduce veniturile
      • Soluție: utilizați regresia logistică, rețelele neuronale pentru a identifica caracteristicile cazurilor frauduloase pentru a preveni în viitor sau pentru a urmări mai energic
      • Beneficiu: creșterea profiturilor prin reducerea clienților nedoriti
    • Analiza de risc
      • Problemă de afaceri: reduceți riscul de împrumuturi către clienți rău platnici
      • Soluție: utilizați modele de notare a creditelor folosind analize discriminante pentru a crea funcții de scor care separă clienții riscanți
      • Beneficiu: scăderea costului datoriilor neperformante
  • Finanțe
    • Problemă de afaceri: Prețul obligațiunilor corporative depinde de mai mulți factori, de profilul de risc al companiei, de vechimea datoriilor, de dividende, de istoricul anterior etc.
    • Abordarea soluției: prin DM, dezvoltați modele mai precise de estimare a prețurilor.
  • Comerț electronic și Internet
    • Filtrare colaborativă – Sisteme de recomandare
      • Oportunitate de afaceri: utilizatorii evaluează articolele pe web. Cum se utilizează informații de la alți utilizatori pentru a deduce evaluări pentru un anumit utilizator?
      • Soluție: utilizarea unei tehnici cunoscute sub numele de filtrare colaborativă
      • Beneficiu: creșteți veniturile prin vânzarea încrucișată, creșterea vânzărilor
    • Clicuri către clienți
      •  Problemă de afaceri: 50% dintre clienții Dell le comandă computerul prin web. Cu toate acestea, rata de retenție este de 0,5%, adică procentul de vizitatori ai paginii web Dell care devin clienți.
      • Abordarea soluției: prin secvența clicurilor lor, gruparea clienților și site-ul web de proiectare, intervenții pentru maximizarea numărului de clienți care cumpără în cele din urmă.
      • Beneficiu: creșteți veniturile

Aplicații emergente majore

  • Spam
  • Bioinformatică / Genomică
  • Date despre istoricul medical – daune de asigurare
  • Personalizarea serviciilor în comerțul electronic
  • Etichete RF
  • Securitate :
    • Expedieri de containere
    • Detectarea intruziunilor în rețea

Concepte de bază

  • Tipuri de date:
    • Numerice
      • Continui – raport și interval
      • Discrete
      • Nevoia de binning
    • Categorice – ordonate și neordonate
    • Binare
  • Suprapotrivire și generalizare
  • Regularizare: penalizare pentru complexitatea modelului
  • Distanța
  • Blestemul dimensionalității
  • Eșantionare aleatorie și stratificată, re-eșantionare
  • Funcții de pierdere

Data Mining - Regresie cu suprapotrivire

Caracteristicile tipice

  • Formatul „Standard” este foaia de calcul:
    • Rând = unitate de observare, coloană = variabilă
  • Multe rânduri, multe coloane
  • Multe rânduri moderează numărul de coloane (de exemplu, apeluri telefonice)
  • Multe coloane, număr moderat de rânduri (de exemplu, genomică)
  • Oportunist (adesea produs secundar al tranzacțiilor)
    • Nu din experimente proiectate
    • Adesea are valori aberante, lipsesc date

Data Minig - Performanța relativă

Sursa: Nitin Patel, Data Mining. Massachusetts Institute of Technology: MIT OpenCourseWare. Licența: CC BY-NC-SA.. Traducere și adaptare Nicolae Sfetcu

Articol publicat de MultiMedia Publishing sub licența CC BY-NC-SA

Amenințările persistente avansate în securitatea cibernetică – Războiul cibernetic
Amenințările persistente avansate în securitatea cibernetică – Războiul cibernetic

Această carte esențială servește atât ca analiză detaliată, cât și ca un apel la acțiune pentru oricine este implicat în domeniul securității digitale.

Nu a fost votat 9.62 lei26.14 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Ghid WordPress pentru începători
Ghid WordPress pentru începători

Descoperă arta gestionării site-urilor web cu WordPress!

Nu a fost votat 14.45 lei26.48 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Rolul social media în democrație, noul management public, și guvernanța electronică
Rolul social media în democrație, noul management public, și guvernanța electronică

O resursă esențială pentru oricine dorește să înțeleagă intersecția în evoluție dintre tehnologie și guvernare.

Nu a fost votat 9.62 lei21.17 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *