Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Utilizarea limbajului de programare R în știința datelor

Utilizarea limbajului de programare R în știința datelor

De ce R?

R nu este un limbaj de programare precum C sau Java. Nu a fost creat de inginerii software pentru dezvoltarea de software. În schimb, a fost dezvoltat de statisticieni ca un mediu interactiv pentru analiza datelor. Puteți citi istoricul complet în lucrarea A Brief History of S (5). Interactivitatea este o caracteristică indispensabilă în știința datelor deoarece, după cum veți afla în curând, capacitatea de a explora rapid datele este o necesitate pentru succesul în acest domeniu. Cu toate acestea, ca și în alte limbaje de programare, vă puteți salva munca folosind scripturi care pot fi executate cu ușurință în orice moment. Aceste scripturi servesc ca o înregistrare a analizei pe care le-ați efectuat, o caracteristică cheie care facilitează munca reproductibilă. Dacă sunteți un programator expert, nu trebuie să vă așteptați ca R să respecte convențiile cu care sunteți obișnuit, deoarece veți fi dezamăgiți. Dacă aveți răbdare, veți ajunge să apreciați puterea inegală a lui R atunci când vine vorba de analiza datelor și, în special, de vizualizarea datelor.

Alte caracteristici atractive ale lui R sunt:

  1. R este gratuit și open source (6).
  2. Funcționează pe toate platformele majore: Windows, Mac Os, UNIX/Linux.
  3. Scripturile și obiectele de date pot fi partajate fără probleme pe platforme.
  4. Există o comunitate mare, în creștere și activă de utilizatori R și, ca urmare, există numeroase resurse pentru a învăța și a pune întrebări (7, 8, 9).
  5. Este ușor pentru alții să contribuie cu suplimente care le permit dezvoltatorilor să partajeze implementări software ale noilor metodologii de știință a datelor. Acest lucru oferă utilizatorilor R acces timpuriu la cele mai recente metode și la instrumente care sunt dezvoltate pentru o mare varietate de discipline, inclusiv ecologie, biologie moleculară, științe sociale și geografie, doar pentru a numi câteva exemple.

Consola R

Analiza interactivă a datelor are loc de obicei pe consola R care execută comenzi pe măsură ce le tastezi. Există mai multe modalități de a obține acces la o consolă R. O modalitate este să porniți pur și simplu R pe computer. Consola arată cam așa:

Ca exemplu rapid, încercați să utilizați consola pentru a calcula un bacșiș de 15% pentru o masă care a costat 19,71 USD:

0.15 * 19.71
#> [1] 2.96

Rețineți că în această carte, casetele gri sunt folosite pentru a afișa codul R introdus în consola R. Simbolul #> este folosit pentru a indica ceea ce iese consola R.

Scripturi

Unul dintre marile avantaje ale lui R față de software-ul de analiză point-and-click este că vă puteți salva munca sub formă de scripturi. Puteți edita și salva aceste scripturi folosind un editor de text. Materialul din această carte a fost dezvoltat folosind mediul de dezvoltare interactiv integrat (IDE) RStudio (10). RStudio include un editor cu multe caracteristici specifice R, o consolă pentru a executa codul și alte panouri utile, inclusiv unul pentru a afișa cifre.

Majoritatea consolelor R bazate pe web oferă, de asemenea, un panou pentru editarea scripturilor, dar nu toate vă permit să salvați scripturile pentru o utilizare ulterioară.

Toate scripturile R utilizate pentru a genera această carte pot fi găsite pe GitHub (11).

RStudio

RStudio va fi rampa noastră de lansare pentru proiectele de știință a datelor. Nu numai că oferă un editor pentru a ne crea și edita scripturile, ci oferă și multe alte instrumente utile. În această secțiune, trecem peste câteva dintre elementele de bază.

Panourile

Când porniți RStudio pentru prima dată, veți vedea trei panouri. Panoul din stânga arată consola R. În partea dreaptă, panoul de sus include file precum Environment și History, în timp ce panoul de jos arată cinci file: File, Plots, Packages, Help și Viewer (aceste file se pot modifica în versiunile noi). Puteți face clic pe fiecare filă pentru a vă deplasa printre diferitele caracteristici.

Pentru a începe un nou script, puteți face clic pe File, apoi New File, apoi R Script.

Aceasta pornește un nou panou din stânga și aici puteți începe să vă scrieți scriptul.

Combinații de taste

Multe sarcini pe care le executăm cu mouse-ul pot fi realizate cu o combinație de taste. Aceste versiuni de tastatură pentru realizarea sarcinilor sunt denumite key bindings. De exemplu, tocmai am arătat cum să folosiți mouse-ul pentru a porni un nou script, dar puteți utiliza și o combinație de taste: Ctrl+Shift+N pe Windows și comandă+shift+N pe Mac.

Deși în acest tutorial vă arătăm adesea cum să folosiți mouse-ul, vă recomandăm să memorați combinațiile de taste pentru operațiunile pe care le utilizați cel mai mult. RStudio oferă o foaie de note cu referințe rapide utilă cu cele mai utilizate comenzi. O puteți obține direct de la RStudio:

S-ar putea să doriți să păstrați acest lucru la îndemână, astfel încât să puteți căuta combinații de taste atunci când vă aflați în situația de a efectua clicuri repetitive.

Referințe

  1. https://pdfs.semanticscholar.org/9b48/46f192aa37ca122cfabb1ed1b59866d8bfda.pdf
  2. https://opensource.org/history
  3. https://stats.stackexchange.com/questions/138/free-resources-for-learning-r
  4. https://www.r-project.org/help.html
  5. https://stackoverflow.com/documentation/r/topics
  6. https://www.rstudio.com/
  7. https://github.com/rafalab/dsbook

Sursa: Rafael A. Irizarry, Introduction to Data Science. (2022) Licența CC BY-NC-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

Rețele de comunicații 5G
Rețele de comunicații 5G

Datorită impactului său așteptat în economie și societate, a cincea generație de telecomunicații mobile (5G) este una dintre cele mai importante inovații ale timpului nostru. Așteptările cresc cu capacitățile de bandă largă ale 5G, accesibile tuturor și peste tot, la … Citeşte mai mult

Nu a fost votat $2,99$6,88 Selectează opțiunile
Căutarea, extragerea, organizarea și evaluarea informațiilor
Căutarea, extragerea, organizarea și evaluarea informațiilor

Informația, ca și concept, include o mare diversitate de sensuri în contexte diferite, de la cele zilnice până la cele tehnice. Conceptul de informație este strâns legat de noțiunile de restricție, comunicare, control, date, forme, educație, cunoaștere, înțelegere, stimul mental, … Citeşte mai mult

Nu a fost votat $3,99$9,61 Selectează opțiunile
Introducere în inteligența artificială
Introducere în inteligența artificială

Inteligența artificială s-a dezvoltat exploziv în ultimii ani, facilitând luarea deciziilor inteligente și automate în cadrul scenariilor de implementare. Inteligența artificială se referă la un ecosistem de modele și tehnologii pentru percepție, raționament, interacțiune și învățare.  Asistăm la o convergență … Citeşte mai mult

Nu a fost votat $2,99$5,07 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.