Duomenys yra šiuolaikinių pažangių AI sistemų pagrindas, tačiau jie kainuoja vis daugiau, todėl jie nepasiekiami visoms, išskyrus turtingiausias technologijų įmones.
Praėjusiais metais Jamesas Betkeris, OpenAI tyrėjas, savo asmeniniame tinklaraštyje paskelbė įrašą apie generatyvinių AI modelių pobūdį ir duomenų rinkinius, kuriais remiantis jie mokomi. Jame Betkeris teigė, kad mokymo duomenys, o ne modelio dizainas, architektūra ar bet kokia kita charakteristika, buvo raktas į vis sudėtingesnes ir pajėgias AI sistemas.
„Pakankamai ilgai treniruojamas su tuo pačiu duomenų rinkiniu, beveik kiekvienas modelis susilieja į tą patį tašką“, – rašė Betkeris.
Ar Betker teisus? Ar treniruočių duomenys yra didžiausias modelis, nulemiantis, ką gali padaryti modelis, nesvarbu, ar tai būtų atsakymas į klausimą, žmogaus rankų piešimas ar tikroviško miesto vaizdinio generavimas?
Tai tikrai tikėtina.
Statistinės mašinos
Generacinės AI sistemos iš esmės yra tikimybiniai modeliai – didžiulė statistikos krūva. Remdamiesi daugybe pavyzdžių, jie atspėja, kuriuos duomenis „prasmingiausia“ dėti (pvz., žodis „eiti“ prieš „į rinką“ sakinyje „Einu į turgų“). Todėl atrodo intuityvu, kad kuo daugiau pavyzdžių turi modelis, tuo geresni modeliai, parengti pagal šiuos pavyzdžius.
„Atrodo, kad našumo padidėjimą lemia duomenys“, – „TechCrunch“ sakė Alleno AI instituto (AI2) vyresnysis taikomųjų tyrimų mokslininkas Kyle'as Lo, „TechCrunch“. .
Lo pateikė pavyzdį apie Meta's Llama 3 – tekstą generuojantį modelį, išleistą šių metų pradžioje, kuris lenkia paties AI2 OLMo modelį, nepaisant to, kad architektūriškai yra labai panašus. „Llama 3“ buvo išmokyta naudoti daug daugiau duomenų nei „OLMo“, o tai, Lo manymu, paaiškina jos pranašumą daugelyje populiarių AI etalonų.
(Pažymėsiu, kad šiandien dirbtinio intelekto pramonėje plačiai naudojami etalonai nebūtinai yra geriausias modelio našumo matuoklis, bet be kokybinių bandymų, tokių kaip mūsų, jie yra vienas iš nedaugelio priemonių, kurias turime tęsk.)
Tai nereiškia, kad mokymas naudojant eksponentiškai didesnius duomenų rinkinius yra patikimas kelias į eksponentiškai geresnius modelius. Modeliai veikia pagal paradigmą „šiukšles įvežti, šiukšles išvežti“, todėl duomenų tvarkymas ir kokybė yra labai svarbūs, galbūt daugiau nei vien kiekis.
„Gali būti, kad mažas modelis su kruopščiai suprojektuotais duomenimis pranoksta didelį modelį“, – pridūrė jis. „Pavyzdžiui, Falcon 180B, didelis modelis, yra 63 vietoje pagal LMSYS etaloną, o Llama 2 13B, daug mažesnis modelis, užima 56 vietą.
Praėjusį spalį interviu su TechCrunch OpenAI tyrėjas Gabrielis Gohas sakė, kad aukštesnės kokybės komentarai labai prisidėjo prie patobulintos vaizdo kokybės DALL-E 3, OpenAI teksto į vaizdą modelio, palyginti su jo pirmtaku DALL-E 2. tai yra pagrindinis patobulinimų šaltinis“, – sakė jis. „Teksto anotacijos yra daug geresnės nei buvo [with DALL-E 2] – tai net nepalyginama.
Daugelis dirbtinio intelekto modelių, įskaitant DALL-E 3 ir DALL-E 2, yra apmokyti, kai žmogaus anotatoriai žymi duomenis, kad modelis galėtų išmokti susieti šias etiketes su kitomis stebimomis tų duomenų savybėmis. Pavyzdžiui, modelis, kuris šeriamas daug kačių paveikslėlių su komentarais kiekvienai veislei, ilgainiui „išmoks“ susieti tokius terminus kaip bobteilas ir trumpi plaukai su savo išskirtiniais vizualiniais bruožais.
Blogas elgesys
Ekspertai, tokie kaip Lo, nerimauja, kad didėjantis dėmesys dideliems, aukštos kokybės mokymo duomenų rinkiniams sutelks AI plėtrą į kelis milijardus dolerių biudžetus turinčius žaidėjus, kurie gali sau leisti įsigyti šiuos rinkinius. Pagrindinės sintetinių duomenų ar pagrindinės architektūros naujovės gali sutrikdyti status quo, tačiau neatrodo, kad nė vienas iš jų būtų artimiausiu metu.
„Apskritai subjektai, valdantys turinį, kuris gali būti naudingas AI plėtrai, yra skatinami užrakinti savo medžiagą“, – sakė Lo. „Ir pasibaigus prieigai prie duomenų, mes iš esmės palaiminame keletą pirmųjų duomenų rinkimo ir kopėčių kilimo, kad niekas kitas negalėtų pasiekti duomenų, kad galėtų pasivyti.
Tiesą sakant, ten, kur lenktynės, siekiant surinkti daugiau treniruočių duomenų, neprivedė prie neetiško (o gal net neteisėto) elgesio, pavyzdžiui, slapto autorių teisių saugomo turinio kaupimo, technologijų milžinai buvo apdovanoti didelėmis kišenėmis duomenų licencijavimui.
Generatyvieji dirbtinio intelekto modeliai, tokie kaip OpenAI, daugiausia mokomi naudojant vaizdus, tekstą, garsą, vaizdo įrašus ir kitus duomenis (kai kurie yra saugomi autorių teisių), gaunamus iš viešųjų tinklalapių (įskaitant, jei problematiška, AI sukurtus). Pasaulio OpenAI tvirtina, kad sąžiningas naudojimas apsaugo juos nuo teisinio keršto. Daugelis teisių turėtojų nesutinka, tačiau bent jau kol kas jie negali padaryti daug, kad užkirstų kelią tokiai praktikai.
Yra daug, daug pavyzdžių, kai generatyvūs AI pardavėjai abejotinomis priemonėmis įgyja didžiulius duomenų rinkinius, kad galėtų parengti savo modelius. Pranešama, kad „OpenAI“ perrašė daugiau nei milijoną valandų „YouTube“ vaizdo įrašų be „YouTube“ palaiminimo (arba kūrėjų palaiminimo), kad būtų pateiktas pavyzdinis modelis GPT-4. „Google“ neseniai iš dalies išplėtė savo paslaugų teikimo sąlygas, kad galėtų naudoti viešuosius „Google“ dokumentus, restoranų apžvalgas „Google“ žemėlapiuose ir kitą savo AI produktų internetinę medžiagą. Teigiama, kad „Meta“ svarstė galimybę iškelti ieškinius, kad apmokytų savo modelius dėl IP apsaugoto turinio.
Tuo tarpu didelės ir mažos įmonės pasikliauja trečiojo pasaulio šalių darbuotojais, kurie mokėjo vos kelis dolerius per valandą, kad sukurtų anotacijas mokymo rinkiniams. Kai kurie iš šių anotatorių, kuriuos įdarbina mamutinės naujovės, pvz., Scale AI, dirba pažodžiui ištisas dienas, kad atliktų užduotis, kuriose vaizdingai pavaizduotas smurtas ir kraujo praliejimas, be jokios naudos ar garantijų būsimiems koncertams.
Augančios išlaidos
Kitaip tariant, net ir didesni duomenų sandoriai ne visai skatina atvirą ir teisingą generatyvinę AI ekosistemą.
„OpenAI“ išleido šimtus milijonų dolerių, kad licencijuotų naujienų leidėjų, vertybinių popierių žiniasklaidos bibliotekų ir kt. turinį, kad apmokytų savo dirbtinio intelekto modelius – šis biudžetas gerokai viršija daugelio akademinių tyrimų grupių, ne pelno organizacijų ir pradedančiųjų įmonių biudžetą. „Meta“ nuėjo taip toli, kad pasvėrė leidėjo „Simon & Schuster“ įsigijimą dėl teisių į el. knygų ištraukas (galiausiai „Simon & Schuster“ 2023 m. pardavė privataus kapitalo įmonei KKR už 1,62 mlrd. USD).
Tikimasi, kad AI mokymo duomenų rinka per dešimtmetį išaugs nuo maždaug 2,5 mlrd. USD iki beveik 30 mlrd. USD per dešimtmetį, todėl duomenų brokeriai ir platformos skuba imti didžiausią mokestį – kai kuriais atvejais dėl savo vartotojų bazės prieštaravimų.
Akcijų medijos biblioteka „Shutterstock“ sudarė sandorius su dirbtinio intelekto pardavėjais nuo 25 iki 50 mln. USD, o „Reddit“ teigia uždirbusi šimtus milijonų nuo duomenų licencijavimo iki tokioms organizacijoms kaip „Google“ ir „OpenAI“. Keletas platformų su daugybe duomenų, organiškai sukauptų bėgant metams neturiu Panašu, kad pasirašė sutartis su generatyviais AI kūrėjais – nuo Photobucket iki Tumblr iki klausimų ir atsakymų svetainės Stack Overflow.
Tai yra platformų duomenys, kuriuos reikia parduoti – bent jau atsižvelgiant į tai, kokiais teisiniais argumentais tikite. Tačiau daugeliu atvejų vartotojai nemato nė cento pelno. Ir tai kenkia platesnei AI tyrimų bendruomenei.
„Mažesni žaidėjai negalės sau leisti šių duomenų licencijų, todėl negalės kurti ar tirti AI modelių“, – sakė Lo. „Aš nerimauju, kad dėl to gali trūkti nepriklausomos AI kūrimo praktikos kontrolės.
Nepriklausomos pastangos
Jei per niūrią niūrumą šviečia saulės spindulys, tai yra kelios nepriklausomos, ne pelno siekiančios pastangos sukurti didžiulius duomenų rinkinius, kuriuos kiekvienas gali panaudoti kurdamas generatyvųjį AI modelį.
EleutherAI, paprasti ne pelno siekianti tyrimų grupė, kuri 2020 m. pradėjo veikti kaip laisvai susiformavęs „Discord“ kolektyvas, bendradarbiauja su Toronto universitetu, AI2 ir nepriklausomais tyrėjais, kad sukurtų „The Pile v2“ – milijardų teksto ištraukų rinkinį, pirmiausia gaunamą iš viešosios srities. .
AI startuolis „Hugging Face“ balandį išleido „FineWeb“, filtruotą „Common Crawl“ versiją – to paties pavadinimo duomenų rinkinį, kurį tvarko ne pelno organizacija „Common Crawl“, kurį sudaro milijardai milijardų tinklalapių. „Hugging Face“ teigia, kad pagerina modelio našumą pagal daugelį etalonų.
Kelios pastangos išleisti atvirus mokymo duomenų rinkinius, kaip ir grupės LAION vaizdų rinkinius, susidūrė su autorių teisėmis, duomenų privatumu ir kitais, ne mažiau rimtais etiniais ir teisiniais iššūkiais. Tačiau kai kurie labiau atsidavę duomenų kuratoriai įsipareigojo padaryti geriau. Pavyzdžiui, „Pile v2“ pašalina probleminę autorių teisių saugomą medžiagą, randamą jos pirmtakų duomenų rinkinyje „The Pile“.
Kyla klausimas, ar kuri nors iš šių atvirų pastangų gali tikėtis neatsilikti nuo Big Tech. Kol duomenų rinkimas ir tvarkymas tebėra išteklių reikalas, atsakymas greičiausiai yra neigiamas – bent jau tol, kol kai kurių tyrimų proveržis nepadarys sąlygos.