Radiće evaluaciju AI alata: AI sistemi rizikuju da isporuče rezultate koji su netačni, pristrasni ili neusklađeni

Delang ga je nazvao možda i najvažnijim korakom u AI-u, naglašavajući sve veći konsenzus da evaluacija nije samo konačna kontrolna tačka, već temelj za osiguravanje da su AI modeli prikladni za svrhu

4792 pregleda 0 komentar(a)

Foto: Shutterstock

A.B.

10.09.2024. 14:47h

Haging Fejs (Hugging Face) je predstavio LightEval, novi lagani paket za evaluaciju dizajniran da pomogne kompanijama i istraživačima da procijene velike jezičke modele.

Ovo izdanje, piše Venture Beat, označava značajan korak u težnji da se razvoj vještačke inteligencije učini transparentnijim i prilagodljivijim.

Kako AI modeli postaju sastavni dio poslovnih operacija i istraživanja, potreba za preciznim, prilagodljivim alatima za evaluaciju nikada nije bila veća.

Iako se velika pažnja posvećuje kreiranju modela i obuci, način na koji se ovi modeli procjenjuju može doprinijeti ili pokvariti njihov uspjeh u stvarnom svijetu. Bez rigorozne i kontekstu-specifične evaluacije, AI sistemi rizikuju da isporuče rezultate koji su netačni, pristrasni ili neusklađeni s poslovnim ciljevima kojima bi trebali služiti.

Haging Fejs, vodeći igrač u open-source AI zajednici, razumije ovo bolje od većine.

U objavi na društvenoj mreži Iks u kojoj najavljuje LightEval, izvršni direktor Klement Delang je naglasio kritičnu ulogu koju evaluacija igra u razvoju AI.

AI nije ograničen na istraživačke laboratorije ili tehnološke kompanije, sada je dio finansijskih usluga, zdravstvene zaštite, maloprodaje, medija... Organizacije u različitim industrijama implementiraju AI kako bi stekle konkurentsku prednost. Međutim, mnoge kompanije se i dalje bore s procjenom svojih modela na načine koji su u skladu s njihovim specifičnim poslovnim potrebama. Standardizovana mjerila, iako korisna, često ne uspijevaju da uhvate nijanse aplikacija u stvarnom svijetu.

LightEval nudi prilagodljivi paket za evaluaciju otvorenog koda koji omogućava korisnicima da prilagode svoje procjene svojim ciljevima.

"Bilo da se radi o mjerenju pravednosti u aplikaciji za zdravstvenu zaštitu ili optimizaciji sistema preporuka za e-trgovinu, LightEval daje organizacijama alate za procjenu AI modela na načine koji su im najvažniji. Besprekornom integracijom sa postojećim alatima Haging Fejsa, kao što su biblioteka za obradu podataka Datatrove i biblioteka za obuku modela Nanotron, LightEval nudi kompletan cjevovod za razvoj vještačke inteligencije. Podržava evaluaciju na više uređaja, uključujući CPU, GPU i TPU, i može se skalirati kako bi odgovarao malim i velikim implementacijama. Ova fleksibilnost je ključna za kompanije koje treba da prilagode svoje AI inicijative ograničenjima različitih hardverskih okruženja, od lokalnih servera do infrastrukture zasnovane na oblaku", rekli su iz kompanije.

Karakteristike i mogućnosti

LightEval je napravljen da bude lak za upotrebu, čak i za one koji nemaju duboku tehničku stručnost. Korisnici mogu procijeniti modele na različitim popularnim mjerilima ili definisati vlastite prilagođene zadatke. Alat se integriše s bibliotekom Accelerate kompanije Haging Fejs, koja, tvrde, pojednostavljuje proces pokretanja modela na više uređaja i na distribuiranim sistemima.

To znači da bez obzira da li radite na jednom laptopu ili na grupi GPU-ova, LightEval može obaviti posao.

Jedna od istaknutih karakteristika LightEval-a je njegova podrška za napredne konfiguracije evaluacije. Korisnici mogu odrediti kako modeli treba da se vrednuju, bilo da se koriste različite težine, paralelizam cjevovoda ili metode zasnovane na adapteru. Ova fleksibilnost čini LightEval moćnim alatom za kompanije sa jedinstvenim potrebama, kao što su one koje razvijaju vlasničke modele ili rade sa sistemima velikih razmera koji zahtevaju

Na primjer, kompanija koja primjenjuje AI model za otkrivanje prevara može dati prednost preciznosti nad opozivom kako bi se lažno pozitivni rezultati sveli na minimum. LightEval im omogućava da u skladu s tim prilagode svoj kanal evaluacije, osiguravajući da je model usklađen sa zahtjevima stvarnog svijeta. Ovaj nivo kontrole je posebno važan za preduzeća koja moraju da uravnoteže tačnost sa drugim faktorima, kao što su korisničko iskustvo ili usklađenost sa propisima.

Bonus video: