Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Inteligența artificială » Preprocesarea datelor și selectarea caracteristicilor în inteligența artificială

Preprocesarea datelor și selectarea caracteristicilor în inteligența artificială

Preprocesarea datelor

Etapa de pre-procesare a datelor folosește tehnici de curățare, integrare și transformare a datelor. Acest proces are ca scop îmbunătățirea calității datelor care va îmbunătăți performanța și eficiența întregului sistem AI prin economisirea de timp în faza de pregătire a modelelor analitice și prin promovarea unei calități mai bune a rezultatelor. Mai exact, termenul de curățare a datelor desemnează tehnici de corectare a inconsecvențelor, de eliminare a zgomotului și de anonimizare/pseudonimizare a datelor.

Integrarea datelor reunește datele care provin din mai multe surse, în timp ce transformarea datelor pregătește datele pentru a alimenta un model analitic, de obicei prin codificarea lor într-un format numeric. O codificare tipică este o codificare one-hot folosită pentru a reprezenta variabilele categoriale ca vectori binari. Această codificare necesită mai întâi ca valorile categoriale să fie mapate la valori întregi. Apoi, fiecare valoare întreagă este reprezentată ca un vector binar care are toate valorile zero, cu excepția poziției numărului întreg, care este marcat cu 1.

Odată convertite în numere, datele pot fi supuse altor tipuri de transformări: redimensionare, standardizare, normalizare și etichetare (42). La finalul acestui proces, se obține un set de date numerice, care va sta la baza antrenării, testării și evaluării modelului AI.

Deoarece a avea un set de date suficient de mare este unul dintre factorii cheie de succes atunci când se instruiește corect un model, este obișnuit să se aplice diferite tehnici de creștere a datelor acelor seturi de date de antrenament care sunt prea mici. De exemplu, este obișnuit să se includă într-un set de date de antrenament diferite versiuni scalate sau rotite de imagini, care erau deja în acel set de date. Un alt exemplu de tehnică de creștere a datelor care poate fi folosită la procesarea textului este înlocuirea unui cuvânt cu sinonimul său. Chiar și în acele cazuri în care setul de date de antrenament este suficient de mare, tehnicile de creștere a datelor pot îmbunătăți modelul antrenat final. Datele pot fi, de asemenea, augmentate pentru a le crește cantitatea și diversitatea scenariilor acoperite. Augmentarea datelor constă de obicei în aplicarea transformărilor despre care se știe că păstrează etichetele, de exemplu modelul nu ar trebui să-și modifice rezultatul (și anume predicția) atunci când este prezentat cu elementele de date transformate. Augmentarea datelor poate servi la îmbunătățirea performanței unui model și în special a robusteței acestuia la perturbații benigne. O sarcină în care augmentarea datelor este utilizată în mod implicit este clasificarea imaginilor, unde datele pot fi augmentate, de exemplu, aplicând translații, rotații și filtre de estompare.

Preprocesarea datelor pe scurt: Convertirea datelor ingerate într-un format metric (numeric), integrarea datelor din diferite surse, gestionarea valorilor lipsă/nule prin interpolare, densificarea pentru a reduce dispersitatea datelor, eliminarea zgomotului, filtrarea valorii aberante, modificarea intervalului de reprezentare, anonimizarea/pseudonimizarea datelor, augmentarea datelor.

Selectarea caracteristicilor

Selectarea caracteristicilor (în ingineria generală a caracteristicilor) este etapa în care se reduce numărul de componente sau caracteristici (numite și dimensiuni) care compun fiecare vector de date, prin identificarea componentelor care se consideră a fi cele mai semnificative pentru modelul AI (43). Rezultatul este un set de date redus, deoarece fiecare vector de date are mai puține componente decât înainte (44). Pe lângă reducerea costurilor de calcul, selecția caracteristicilor poate aduce modele mai precise. În plus, modelele construite pe baza datelor de dimensiuni inferioare sunt mai înțelese și explicabile. Această etapă poate fi, de asemenea, încorporată în faza de construire a modelului (de exemplu, la procesarea datelor de imagine sau de vorbire).

Selectarea caracteristicilor pe scurt: Identificarea dimensiunilor setului de date care reprezintă un parametru global, de ex. varianța generală a etichetelor. Datele proiectului sunt stabilite de-a lungul acestor dimensiuni, eliminând pe celelalte.

Note

(42) Re-scalarea este utilizată pentru a se asigura că toate variabilele sunt exprimate pe aceeași scară, deoarece unele metode pot trece cu vederea variabilele cu intensitate mai mică. Standardizarea este utilizată pentru a modifica media unei distribuții de valori la 0, în timp ce normalizarea mapează datele la un interval de reprezentare compact (de exemplu, intervalul (0, 1), împărțind toate valorile la maxim). Etichetarea (realizată de experți umani sau de alte aplicații AI) asociază fiecare element de date la o categorie sau o predicție.

(43) Modelele de învățare automată sunt algoritmi antrenați cu date istorice care descoperă modele și relații și construiesc modele matematice folosind aceste descoperiri.

(44) Este de remarcat faptul că nu este întotdeauna cazul. În special, în abordările recente de învățare profundă care iau în considerare abordări end-to-end de învățare profundă, în care nu se realizează nicio procesare a caracteristicilor.

Sursa: ENISA, AI Cybersecurity Challenges – Threat Landscape for Artificial Intelligence, December 2020. Editora: Apostolos Malatras, Georgia Dede – European Union Agency for Cybersecurity. © European Union Agency for Cybersecurity (ENISA), 2020. Traducere și adaptare independentă: Nicolae Sfetcu

© 2021 MultiMedia Publishing, Introducere în inteligența artificială

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *