Trebamo li se zabrinuti? Stiže nam dark web ChatGPT

Hype oko Large Language Modela(LLM) se ne stišava. Svako malo neka nova kompanija izbacuje svoj chatbot pogonjen umjetnom inteligencijom. U kombinaciji s otvorenim kodom drugih GPT (Generative Pre-Trained Transformer) modela, broj aplikacija koje koriste AI eksplodira; a kao što znamo, sam ChatGPT može se koristiti za stvaranje vrlo naprednog zlonamjernog softvera.

Kako vrijeme bude prolazilo, primjene LLMa će se samo povećavati, svaki specijaliziran za svoje područje, obučen na pažljivo odabranim podacima za određenu svrhu. I jedna takva aplikacija je upravo stigla, ona koja je bila obučena na podacima sa samog mračnog weba. Stigao je DarkBERT, kako su ga nazvali južnokorejski tvorci.

DarkBERT se temelji na arhitekturi RoBERTa, umjetne inteligencije razvijene još 2019. Doživio je svojevrsnu renesansu, a istraživači su otkrili da zapravo ima više mogućnosti nego što se moglo izvući iz njega 2019. Čini se da je model bio ozbiljno nedovoljno obučen 2019. , daleko ispod svoje maksimalne učinkovitosti.

Kako bi trenirali model, istraživači su indeksirali Dark Web kroz anonimni firewall mreže Tor, a zatim filtrirali neobrađene podatke (primjenom tehnika kao što su deduplikacija, balansiranje kategorija i pretprocesiranje podataka) kako bi generirali bazu podataka Dark Weba. DarkBERT je rezultat te baze podataka koja se koristi za “napajanje” RoBERT Large Language Modela, modela koji može analizirati novi dio sadržaja Dark Weba.

Reći da je engleski jezik Dark Weba ne bi bilo sasvim točno, ali to je dovoljno specifična “laž” da istraživači vjeruju da se određeni LLM morao obučavati na njemu. Na kraju su možda bili u pravu: testiranje je pokazalo da DarkBERT nadmašuje druge velike jezične modele, što bi trebalo omogućiti cyber security istraživačima i tijelima za provedbu zakona da prodru dublje u prostranstva dark weba. To je, uostalom, mjesto gdje se odvija većina “akcije”.

DarkBERT bi mogao predstavljati budućnost AI modela koji se obučavaju u jednom specifičnom području kako bi bili puno specijaliziraniji. S obzirom na njegovu dosadašnju popularnost, ne bismo se iznenadili da vidimo slične AI modele razvijene na ovaj način u budućnosti.