Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Date atomice în știința datelor

Date atomice în știința datelor

Când spunem că unele date sunt „atomice”, nu înseamnă că sunt radioactive; vrem să spunem că sunt indivizibile.

Anticii vorbeau despre „atomi” drept cele mai mici bucăți posibile de materie. Dacă împărțiți orice obiect fizic – să zicem, un măr – în părți, obțineți componentele sale: o tulpină, pielița, semințe și miezul dulce și suculent. Tăiați oricare dintre aceste bucăți cu un cuțit și veți obține bucăți mai mici. Dacă continuați să le divizați din ce în ce mai mult, filozofii precum Democritus au argumentat că veți ajunge în cele din urmă la mici biți indivizibili care nu mai pot fi divizați în continuare. Aici se află lumea fizică la cel mai înalt grad de granularitate.

În mod similar, o piesă de date atomice este tratată de obicei ca o unitate întreagă, nu ca ceva cu structură internă care poate fi defalcată. Există diferite moduri în care acești atomi de date pot fi strânși împreună și organizați în ansambluri mai mari.

Medii și variabile

Un program de analiză a datelor folosește un mediu pe măsură ce rulează. „Mediu” înseamnă doar „toate datele care sunt vizualizate în prezent și pe care programul le poate accesa.” (1) Mediul este format din variabile, fiecare (de obicei) având un nume și o valoare. De exemplu, s-ar putea să avem o variabilă numită vârstă a cărei valoare este 21 și o variabilă numită slogan a cărei valoare este „Unu pentru toți și toți pentru unu”.

Fiecare variabilă din mediu trebuie să aibă un nume distinct (adică, nu există două variabile care să poarte același nume). De asemenea, important, motivul pentru care aceste elemente de bază sunt numite „variabile” este că valoarea lor se poate schimba pe măsură ce programul se execută. Deși putem crea inițial o variabilă de vârstă cu valoarea 21, mai târziu în program, valoarea variabilei s-ar putea schimba la 22, sau 50 sau 0. Numele variabilei nu se schimbă niciodată.

Tipuri de date atomice

Există un alt lucru pe care o variabilă îl are pe lângă numele și valoarea sa: un tip. (2) Într-un limbaj de programare precum Python, fiecare bucată de date are un tip specific, care este necesar pentru a determina cum se comportă și tot ce puteți face cu ea. O întrebare pe care ar trebui să o pui mult este: „bine, am o variabilă în mediul meu numită x … acum care este tipul ei?” Este posibil să fi ghicit (corect) că variabilele noastre de vârstă și slogan din secțiunea anterioară sunt de diferite tipuri: una este un număr, iar cealaltă este o frază.

Există trei tipuri principale de date atomice.

Numere întregi

Un tip foarte comun de date sunt numerele întregi sau întregii. Acestea sunt de obicei pozitive, dar pot fi și negative, și nu au nicio zecimală. Lucruri precum anul nașterii unei persoane, votul total al unui candidat sau numărul de „aprecieri” al unei postări pe rețelele sociale sunt reprezentate cu acest tip de date.

Numere reale (fracționale)

Vă puteți aminti din matematica liceului că așa-numitele „numere reale” includ nu numai numere întregi, ci și numere cu cifre după virgula zecimală. Prin urmare, acest tip poate fi utilizat pentru a stoca ratele dobânzilor, citirile de temperatură și ratingurile medii ale filmelor pe o scară de la 1 la 5.

Deoarece toate numerele întregi sunt numere reale, s-ar putea să vă întrebați de ce ne deranjăm să definim două tipuri diferite pentru acestea. De ce să nu dai doar ambelor tipuri de variabile același tip, de număr real? Practic, răspunsul este că ceva „se simte a fi greșit” în acest sens pentru comunitatea științei datelor. Un utilizator Facebook ar putea avea 240 de prieteni sau 241, dar niciodată nu ar avea sens să aibă 240,3 prieteni. A apărut astfel un consens: variabilele care ar stoca numai numere întregi ar trebui să fie într-adevăr de un tip dedicat doar numerelor întregi. Puteți încălca această convenție, dar veți fi considerat ciudat de colegii dvs. dezvoltatori dacă faceți acest lucru.

Text

În cele din urmă, unele valori care nu sunt deloc numerice, cum ar fi numele unui client, titlul emisiunii sau un tweet. Deci, al treilea tip de date este textual. Variabilele de acest tip au o secvență de caractere ca valori. Aceste caractere sunt de cele mai multe ori litere, dar pot include și spații, punctuație și caractere din alte alfabete.

Apropo, acest al treilea tip de date se poate îndrepta până la linia „atomică” și uneori o poate traversa. Cu alte cuvinte, vom lucra ocazional cu valorile textului non-atomic, împărțindu-le în cuvintele lor constitutive sau chiar în litere. De cele mai multe ori, totuși, vom trata o secvență de caractere precum „Avengers: Endgame” ca o singură bucată de date indivizibilă în același mod în care tratăm un număr ca 42.

Dar ce zici de …?

Ce se întâmplă cu alte lucruri pe care le poate stoca un computer: fișiere de imagini, melodii, videoclipuri? Se pare că, prin trucuri inteligente, toate aceste tipuri de suporturi și multe altele pot fi reduse la un număr mare de numere întregi, și stocate într-o structură de date cumulată. La nivel atomic, rămân cele trei tipuri prezentate mai sus.

Note

(1) Această utilizare a termenului „mediu” este diferită de termenul „mediu de programare”.

(2) Strict vorbind, deși în limbaje precum Java variabilele au într-adevăr tipuri, în Python valorile au tipuri, nu variabilele. Această distincție nu este însă importantă pentru noi.

Sursa: Stephen Davies, The Crystal Ball – Instruction Manual, Vol. 1: Introduction to Data Science, v. 1.1. Copyright © 2021 Stephen Davies. Licența CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

© 2021 MultiMedia Publishing, Introducere în Știința Datelor, Volumul 1

Ghid WordPress pentru dezvoltatori
Ghid WordPress pentru dezvoltatori

Resursa esențială care te va ghida pas cu pas în lumea complexă a platformei WordPress.

Nu a fost votat $3.99 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Nu rata oportunitatea de a rămâne competitiv într-o lume bazată pe date!

Nu a fost votat $3.99$5.99 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Ghid marketing pe Internet
Ghid marketing pe Internet

Autor: Nicolae Sfetcu (Ediţia a doua, Revizia 2) Unul din cele mai vechi ghiduri pentru marketing pe Internet în limba română, dar şi unul din cele mai concise şi mai practice ghiduri. Deşi au trecut mulţi ani de la scrierea … Citeşte mai mult

Nu a fost votat $0.00 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *