De ce R?
R nu este un limbaj de programare precum C sau Java. Nu a fost creat de inginerii software pentru dezvoltarea de software. În schimb, a fost dezvoltat de statisticieni ca un mediu interactiv pentru analiza datelor. Puteți citi istoricul complet în lucrarea A Brief History of S (5). Interactivitatea este o caracteristică indispensabilă în știința datelor deoarece, după cum veți afla în curând, capacitatea de a explora rapid datele este o necesitate pentru succesul în acest domeniu. Cu toate acestea, ca și în alte limbaje de programare, vă puteți salva munca folosind scripturi care pot fi executate cu ușurință în orice moment. Aceste scripturi servesc ca o înregistrare a analizei pe care le-ați efectuat, o caracteristică cheie care facilitează munca reproductibilă. Dacă sunteți un programator expert, nu trebuie să vă așteptați ca R să respecte convențiile cu care sunteți obișnuit, deoarece veți fi dezamăgiți. Dacă aveți răbdare, veți ajunge să apreciați puterea inegală a lui R atunci când vine vorba de analiza datelor și, în special, de vizualizarea datelor.
Alte caracteristici atractive ale lui R sunt:
- R este gratuit și open source (6).
- Funcționează pe toate platformele majore: Windows, Mac Os, UNIX/Linux.
- Scripturile și obiectele de date pot fi partajate fără probleme pe platforme.
- Există o comunitate mare, în creștere și activă de utilizatori R și, ca urmare, există numeroase resurse pentru a învăța și a pune întrebări (7, 8, 9).
- Este ușor pentru alții să contribuie cu suplimente care le permit dezvoltatorilor să partajeze implementări software ale noilor metodologii de știință a datelor. Acest lucru oferă utilizatorilor R acces timpuriu la cele mai recente metode și la instrumente care sunt dezvoltate pentru o mare varietate de discipline, inclusiv ecologie, biologie moleculară, științe sociale și geografie, doar pentru a numi câteva exemple.
Consola R
Analiza interactivă a datelor are loc de obicei pe consola R care execută comenzi pe măsură ce le tastezi. Există mai multe modalități de a obține acces la o consolă R. O modalitate este să porniți pur și simplu R pe computer. Consola arată cam așa:
Ca exemplu rapid, încercați să utilizați consola pentru a calcula un bacșiș de 15% pentru o masă care a costat 19,71 USD:
0.15 * 19.71
#> [1] 2.96
Rețineți că în această carte, casetele gri sunt folosite pentru a afișa codul R introdus în consola R. Simbolul #> este folosit pentru a indica ceea ce iese consola R.
Scripturi
Unul dintre marile avantaje ale lui R față de software-ul de analiză point-and-click este că vă puteți salva munca sub formă de scripturi. Puteți edita și salva aceste scripturi folosind un editor de text. Materialul din această carte a fost dezvoltat folosind mediul de dezvoltare interactiv integrat (IDE) RStudio (10). RStudio include un editor cu multe caracteristici specifice R, o consolă pentru a executa codul și alte panouri utile, inclusiv unul pentru a afișa cifre.
Majoritatea consolelor R bazate pe web oferă, de asemenea, un panou pentru editarea scripturilor, dar nu toate vă permit să salvați scripturile pentru o utilizare ulterioară.
Toate scripturile R utilizate pentru a genera această carte pot fi găsite pe GitHub (11).
RStudio
RStudio va fi rampa noastră de lansare pentru proiectele de știință a datelor. Nu numai că oferă un editor pentru a ne crea și edita scripturile, ci oferă și multe alte instrumente utile. În această secțiune, trecem peste câteva dintre elementele de bază.
Panourile
Când porniți RStudio pentru prima dată, veți vedea trei panouri. Panoul din stânga arată consola R. În partea dreaptă, panoul de sus include file precum Environment și History, în timp ce panoul de jos arată cinci file: File, Plots, Packages, Help și Viewer (aceste file se pot modifica în versiunile noi). Puteți face clic pe fiecare filă pentru a vă deplasa printre diferitele caracteristici.
Pentru a începe un nou script, puteți face clic pe File, apoi New File, apoi R Script.
Aceasta pornește un nou panou din stânga și aici puteți începe să vă scrieți scriptul.
Combinații de taste
Multe sarcini pe care le executăm cu mouse-ul pot fi realizate cu o combinație de taste. Aceste versiuni de tastatură pentru realizarea sarcinilor sunt denumite key bindings. De exemplu, tocmai am arătat cum să folosiți mouse-ul pentru a porni un nou script, dar puteți utiliza și o combinație de taste: Ctrl+Shift+N pe Windows și comandă+shift+N pe Mac.
Deși în acest tutorial vă arătăm adesea cum să folosiți mouse-ul, vă recomandăm să memorați combinațiile de taste pentru operațiunile pe care le utilizați cel mai mult. RStudio oferă o foaie de note cu referințe rapide utilă cu cele mai utilizate comenzi. O puteți obține direct de la RStudio:
S-ar putea să doriți să păstrați acest lucru la îndemână, astfel încât să puteți căuta combinații de taste atunci când vă aflați în situația de a efectua clicuri repetitive.
Referințe
- https://pdfs.semanticscholar.org/9b48/46f192aa37ca122cfabb1ed1b59866d8bfda.pdf
- https://opensource.org/history
- https://stats.stackexchange.com/questions/138/free-resources-for-learning-r
- https://www.r-project.org/help.html
- https://stackoverflow.com/documentation/r/topics
- https://www.rstudio.com/
- https://github.com/rafalab/dsbook
Sursa: Rafael A. Irizarry, Introduction to Data Science. (2022) Licența CC BY-NC-SA 4.0. Traducere și adaptare: Nicolae Sfetcu
Lasă un răspuns