Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » Mineritul datelor în înțelegerea piețelor cu RapidMiner

Mineritul datelor în înțelegerea piețelor cu RapidMiner

postat în: Data mining 0

Sarah este manager regional de vânzări pentru un furnizor la nivel național de combustibili fosili pentru încălzirea locuințelor. Volatilitatea recentă a prețurilor de pe piață în special pentru combustibilul de încălzire, cuplată cu variabilitatea mare a mărimii fiecărei comenzi pentru combustibilul de încălzire, o îngrijorează pe Sarah. Ea simte nevoia să înțeleagă tipurile de comportamente și alți factori care pot influența cererea de combustibil de încălzire pe piața internă. Ce factori sunt legați de utilizarea combustibilului de încălzire și cum ar putea ea să folosească cunoașterea acestor factori pentru a-și gestiona mai bine inventarul și a anticipa cererea? Sarah crede că mineritul datelor o poate ajuta să înceapă să înțeleagă acești factori și interacțiuni.

ÎNȚELEGEREA ORGANIZAȚIONALĂ

Scopul lui Sarah este să înțeleagă mai bine modul în care compania ei poate reuși pe piața combustibilului pentru încălzirea locuinței. Ea recunoaște că există mulți factori care influențează consumul de combustibil de încălzire și consideră că, prin investigarea relației dintre o serie de acești factori, va putea să monitorizeze și să răspundă mai bine cererii de combustibil de încălzire. Ea a selectat corelația ca o modalitate de a modela relația dintre factorii pe care dorește să-i investigheze. Corelația este o măsură statistică a cât de puternice sunt relațiile dintre atributele dintr-un set de date.

ÎNȚELEGEREA DATELOR

Pentru a-și investiga întrebarea, Sarah a solicitat ajutorul nostru pentru a crea o matrice de corelație cu șase atribute. Lucrând împreună, folosind resursele de date ale angajatorului lui Sarah, care sunt extrase în principal din baza de date de facturare a companiei, creăm un set de date compus din următoarele atribute:

  • Insulation: Acesta este un rating de densitate, care variază de la unu la zece, indicând grosimea izolației fiecărei case. O casă cu o densitate de unu este prost izolată, în timp ce o casă cu o densitate de zece are o izolație excelentă.
  • Temperature: aceasta este temperatura medie exterioară a fiecărei case pentru cel mai recent an, măsurată în grade Fahrenheit.
  • Heating_Oil: Acesta este numărul total de unități de combustibil de încălzire achiziționate de proprietarul fiecărei case în cel mai recent an.
  • Num_Occupants: acesta este numărul total de ocupanți care locuiesc în fiecare casă.
  • Avg_Age: aceasta este vârsta medie a acelor ocupanți.
  • Home_Size: aceasta este o evaluare, pe o scară de la unu la opt, a dimensiunii totale a casei. Cu cât numărul este mai mare, cu atât casa este mai mare.

PREGĂTIREA DATELOR

Un set de date CSV pentru exemplul acestui capitol este disponibil pentru descărcare de pe site-ul web însoțitor al ghidului (https://www.telework.ro/wp-content/uploads/2022/08/Chapter04DataSet.csv). Dacă doriți să urmați exemplul, mergeți mai departe și descărcați fișierul Chapter04DataSet.csv acum și salvați-l în folderul de date RapidMiner. Apoi, parcurgeți următorii pași pentru a pregăti setul de date pentru mineritul de corelații:

1) Importați setul de date CSV din Capitolul 4 în depozitul de date RapidMiner. Salvați-l cu numele Chapter4. Dacă aveți nevoie de o actualizare despre cum să aduceți acest set de date în arhiva dvs. RapidMiner, consultați pașii de la 7 la 14 ai Exercițiului Hands On din Capitolul 3. Pașii vor fi aceiași, cu excepția fișierului pe care îl selectați să îl importați. Importați toate atributele și acceptați tipurile de date prestabilite. Când ați terminat, depozitul dvs. ar trebui să arate similar cu Figura 4-1.

Figura 4-1. Setul de date din capitolul patru a fost adăugat la depozitul de carte RapidMiner al autorului.

2) Dacă aplicația dvs. RapidMiner nu este deschisă în o nouă fereastră de proces goală, faceți clic pe pictograma nou proces sau dați clic pe File > New pentru a crea un nou proces. Trageți setul de date Chapter4 în fereastra principală a procesului. Continuați și faceți clic pe butonul de rulare (redare) pentru a examina metadatele setului de date. Dacă vi se solicită, puteți alege să salvați noul model. Pentru exemplul acestei cărți, vom salva modelul ca Chapter4_Process.

RapidMiner - MetadateFigura 4-2. Vizualizare metadate a setului de date din capitolul patru.

Putem vedea în Figura 4-2 că cele șase atribute ale noastre sunt afișate. Există un total de 1.218 de locuințe reprezentate în setul de date. Setul nostru de date pare a fi foarte curat, fără valori lipsă în niciunul dintre cele șase atribute și fără date inconsecvente care apar în intervalele noastre sau alte statistici descriptive. Dacă doriți, vă puteți lua un minut pentru a trece la Data View pentru a vă familiariza cu datele. Se pare că aceste date sunt în stare bună și nu mai au nevoie de operatori de pregătire a datelor.

Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu. © 2022 MultiMedia Publishing, Mineritul de date

Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Nu rata oportunitatea de a rămâne competitiv într-o lume bazată pe date!

Nu a fost votat $3.99$5.99 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Lucrul cu baze de date
Lucrul cu baze de date

Descoperă puterea bazelor de date cu acest ghid complet.

Nu a fost votat $3.99$7.99 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Căutarea, extragerea, organizarea și evaluarea informațiilor
Căutarea, extragerea, organizarea și evaluarea informațiilor

Transformă informația în putere cu ajutorul acestei cărți indispensabile!

Nu a fost votat $3.99$9.61 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *