Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Utilizarea limbajului de programare R în știința datelor

Utilizarea limbajului de programare R în știința datelor

De ce R?

R nu este un limbaj de programare precum C sau Java. Nu a fost creat de inginerii software pentru dezvoltarea de software. În schimb, a fost dezvoltat de statisticieni ca un mediu interactiv pentru analiza datelor. Puteți citi istoricul complet în lucrarea A Brief History of S (5). Interactivitatea este o caracteristică indispensabilă în știința datelor deoarece, după cum veți afla în curând, capacitatea de a explora rapid datele este o necesitate pentru succesul în acest domeniu. Cu toate acestea, ca și în alte limbaje de programare, vă puteți salva munca folosind scripturi care pot fi executate cu ușurință în orice moment. Aceste scripturi servesc ca o înregistrare a analizei pe care le-ați efectuat, o caracteristică cheie care facilitează munca reproductibilă. Dacă sunteți un programator expert, nu trebuie să vă așteptați ca R să respecte convențiile cu care sunteți obișnuit, deoarece veți fi dezamăgiți. Dacă aveți răbdare, veți ajunge să apreciați puterea inegală a lui R atunci când vine vorba de analiza datelor și, în special, de vizualizarea datelor.

Alte caracteristici atractive ale lui R sunt:

  1. R este gratuit și open source (6).
  2. Funcționează pe toate platformele majore: Windows, Mac Os, UNIX/Linux.
  3. Scripturile și obiectele de date pot fi partajate fără probleme pe platforme.
  4. Există o comunitate mare, în creștere și activă de utilizatori R și, ca urmare, există numeroase resurse pentru a învăța și a pune întrebări (7, 8, 9).
  5. Este ușor pentru alții să contribuie cu suplimente care le permit dezvoltatorilor să partajeze implementări software ale noilor metodologii de știință a datelor. Acest lucru oferă utilizatorilor R acces timpuriu la cele mai recente metode și la instrumente care sunt dezvoltate pentru o mare varietate de discipline, inclusiv ecologie, biologie moleculară, științe sociale și geografie, doar pentru a numi câteva exemple.

Consola R

Analiza interactivă a datelor are loc de obicei pe consola R care execută comenzi pe măsură ce le tastezi. Există mai multe modalități de a obține acces la o consolă R. O modalitate este să porniți pur și simplu R pe computer. Consola arată cam așa:

Ca exemplu rapid, încercați să utilizați consola pentru a calcula un bacșiș de 15% pentru o masă care a costat 19,71 USD:

0.15 * 19.71
#> [1] 2.96

Rețineți că în această carte, casetele gri sunt folosite pentru a afișa codul R introdus în consola R. Simbolul #> este folosit pentru a indica ceea ce iese consola R.

Scripturi

Unul dintre marile avantaje ale lui R față de software-ul de analiză point-and-click este că vă puteți salva munca sub formă de scripturi. Puteți edita și salva aceste scripturi folosind un editor de text. Materialul din această carte a fost dezvoltat folosind mediul de dezvoltare interactiv integrat (IDE) RStudio (10). RStudio include un editor cu multe caracteristici specifice R, o consolă pentru a executa codul și alte panouri utile, inclusiv unul pentru a afișa cifre.

Majoritatea consolelor R bazate pe web oferă, de asemenea, un panou pentru editarea scripturilor, dar nu toate vă permit să salvați scripturile pentru o utilizare ulterioară.

Toate scripturile R utilizate pentru a genera această carte pot fi găsite pe GitHub (11).

RStudio

RStudio va fi rampa noastră de lansare pentru proiectele de știință a datelor. Nu numai că oferă un editor pentru a ne crea și edita scripturile, ci oferă și multe alte instrumente utile. În această secțiune, trecem peste câteva dintre elementele de bază.

Panourile

Când porniți RStudio pentru prima dată, veți vedea trei panouri. Panoul din stânga arată consola R. În partea dreaptă, panoul de sus include file precum Environment și History, în timp ce panoul de jos arată cinci file: File, Plots, Packages, Help și Viewer (aceste file se pot modifica în versiunile noi). Puteți face clic pe fiecare filă pentru a vă deplasa printre diferitele caracteristici.

Pentru a începe un nou script, puteți face clic pe File, apoi New File, apoi R Script.

Aceasta pornește un nou panou din stânga și aici puteți începe să vă scrieți scriptul.

Combinații de taste

Multe sarcini pe care le executăm cu mouse-ul pot fi realizate cu o combinație de taste. Aceste versiuni de tastatură pentru realizarea sarcinilor sunt denumite key bindings. De exemplu, tocmai am arătat cum să folosiți mouse-ul pentru a porni un nou script, dar puteți utiliza și o combinație de taste: Ctrl+Shift+N pe Windows și comandă+shift+N pe Mac.

Deși în acest tutorial vă arătăm adesea cum să folosiți mouse-ul, vă recomandăm să memorați combinațiile de taste pentru operațiunile pe care le utilizați cel mai mult. RStudio oferă o foaie de note cu referințe rapide utilă cu cele mai utilizate comenzi. O puteți obține direct de la RStudio:

S-ar putea să doriți să păstrați acest lucru la îndemână, astfel încât să puteți căuta combinații de taste atunci când vă aflați în situația de a efectua clicuri repetitive.

Referințe

  1. https://pdfs.semanticscholar.org/9b48/46f192aa37ca122cfabb1ed1b59866d8bfda.pdf
  2. https://opensource.org/history
  3. https://stats.stackexchange.com/questions/138/free-resources-for-learning-r
  4. https://www.r-project.org/help.html
  5. https://stackoverflow.com/documentation/r/topics
  6. https://www.rstudio.com/
  7. https://github.com/rafalab/dsbook

Sursa: Rafael A. Irizarry, Introduction to Data Science. (2022) Licența CC BY-NC-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

Analitica rețelelor sociale
Analitica rețelelor sociale

Analitica rețelelor sociale este un domeniu nou și emergent, pregătit pentru a permite companiilor să își îmbunătățească inițiativele de gestionare a performanței în diferite funcții de afaceri. Indiferent dacă este vorba de măsurarea eficienței campaniilor promoționale, colectarea de informații despre … Citeşte mai mult

Nu a fost votat $3.99$9.61 Selectează opțiunile
Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat $2.99$4.80 Selectează opțiunile
Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat $3.99$7.99 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *