Apple i Nvidia udružuju snage za ubrzanje rada jezika velikih modela
Apple je nedavno objavio suradnju s firmom Nvidia, kako bi ubrzali procesiranje velikih jezičnih modela putem svoje otvorene tehnologije pod nazivom Recurrent Drafter, skraćeno ReDrafter. Ova suradnja ima za cilj suočavanje s računalnim izazovima generacije auto-regresivnih tokena, što je ključno za poboljšanje učinkovitosti i smanjenje latencije u realnom vremenu kod aplikacija velikih jezičnih modela (LLM).
Što je ReDrafter i kako funkcionira?
ReDrafter, koji je Apple predstavio u studenom 2024. godine, koristi pristup spekulativnog dekodiranja. Kombinira model ponavljajuće neuronske mreže (RNN) s pretraživanjem snopa i dinamičkom pažnjom stabla. Prema Appleovim testovima, ova metoda generira 2.7 puta više tokena u sekundi u usporedbi s tradicionalnom auto-regresijom.
Integracija s Nvidia TensorRT-LLM
Kroz integraciju u Nvidia-ov TensorRT-LLM okvir, ReDrafter svoje učinke proširuje omogućavajući brže procesiranje LLM-a na Nvidia GPU-ima koji se široko koriste u proizvodnim okruženjima. Nvidia je također uvela nove operatore i prilagodila postojeće unutar TensorRT-LLM, čime je ova tehnologija postala dostupna za sve programere koji žele optimizirati performanse velikih modela.
Prednosti ReDrafter tehnologije
- Ubrzanje procesa: Učinkovitija generacija tokena značajno smanjuje vrijeme potrebno za obradu podataka.
- Smanjenje latencije korisnika: ReDrafter potencijalno smanjuje vrijeme čekanja za krajnje korisnike, što poboljšava korisničko iskustvo.
- Smanjenje troškova: Manje GPU-ova potrebnih za obradu rezultira nižim računalnim troškovima i smanjenom potrošnjom energije, što je ključno za organizacije koje upravljaju velikim AI implementacijama.
Perspektive budućnosti
Dok je fokus ove suradnje trenutno na Nvidia-inoj infrastrukturi, postoji mogućnost da slične performanse budu dostupne i na konkurentskim GPU-ima od AMD-a ili Intela u budućnosti. Napretci poput ovih mogu značajno poboljšati učinkovitost strojnog učenja.
Kako je Nvidia izjavila: “Ova suradnja je učinila TensorRT-LLM moćnijim i fleksibilnijim, omogućujući zajednici LLM-a inoviranje složenijih modela i njihovo jednostavno implementiranje uz TensorRT-LLM kako bi se postigle nenadmašne performanse na Nvidia GPU-ima.” Ove nove značajke otvaraju uzbudljive mogućnosti, a radujemo se sljedećoj generaciji naprednih modela iz zajednice koji će koristiti mogućnosti TensorRT-LLM, što će dovesti do daljnjih poboljšanja u LLM workload-ima.
Ako želite saznati više o suradnji između Apple-a i Nvidije, posjetite Nvidia Developer Technical Blog.