Grote taalparadigma’s zijn recent enorm populair geworden en staan vaak in het nieuws. GPT-4, dat pas in maart 2023 werd uitgebracht, is een van de meest populaire adaptermodellen. Het is de technologie achter de populaire ChatGPT ontwikkeld door OpenAI. De chatbot kan tekstinformatie genereren en mensen imiteren bij het beantwoorden van vragen. Na het enorme succes van GPT 3.5 is GPT-4 de nieuwste mijlpaal in de schaalvergroting van deep learning en generatieve AI.
In tegenstelling tot de vorige versie, GPT 3.5, die alleen ChatGPT toestond om tekstinvoer te verwerken, is de nieuwste GPT-4 van multimediale aard, wat inhoudt dat tekst en afbeeldingen als invoer worden geaccepteerd. Een ander dergelijk model genaamd LLaMA (Large Meta AI Model for Language) werd uitgebracht door Meta AI in februari 2023. Met 13B parameters vermeldden de onderzoekers achter de ontwikkeling van LLaMA hoe de prestaties van het model op de meeste NLP-benchmarks de 175B GPT-3 overtroffen. Het was een grotere concurrent van de nieuwste modellen zoals de PaLM en Chinchilla.
Nu komt Vicuna, een open-source chatbot met 13 miljard parameters, ontwikkeld door een team van UC Berkeley, CMU, Stanford en UC San Diego en getraind door LLaMA af te stemmen op gesprekken die door een gebruiker worden gedeeld. Gesprekken worden verzameld uit ShareGPT via openbare API’s. ShareGPT is een Chrome-extensie waarmee gebruikers hun eerdere ChatGPT-chats met slechts één klik met anderen kunnen delen. Vicuna is gemaakt door simpelweg de basisvorm van LLaMA af te stemmen. Ik heb ongeveer 70.000 gesprekken gebruikt die door gebruikers zijn gedeeld op ShareGPT.
🚀 Word lid van de snelste ML Subreddit-community
Trainings-, service- en evaluatiecode gedeeld op https://github.com/lm-sys/FastChat. De onderzoekers meldden dat tijdens het verzamelen van gespreksgegevens het HTML-gedeelte weer werd geconverteerd naar prijsverlaging. Dit werd gedaan om gesprekken die ongepast of van lage kwaliteit waren eruit te filteren. Verder werden lange conversaties opgedeeld in kleinere segmenten zodat ze binnen de maximale contextuele lengte van het model pasten.
Het model is gebouwd bovenop Stanford’s Alpaca met enkele verbeteringen zoals –
- Geheugenoptimalisatie – De maximale contextlengte is verhoogd van 512 in Alpaca naar 2048, wat de GPU-geheugenvereisten verhoogt. Het geheugengebruik werd afgehandeld met behulp van gegradueerde controlepunten en knipperende aandacht.
- Gesprekken met meerdere rondes – Het trainingsproces is aangepast om rekening te houden met gesprekken met meerdere rondes. Hierdoor kan de chatbot nauwkeuriger reageren op gesprekken met meerdere rondes voor een betere ervaring.
- Kostenreductie – SkyPilot beheerde spot is gebruikt om trainingskosten te verlagen door goedkopere instances te gebruiken met automatisch herstel en regiowisseling. Dit hielp bij het trainen van een Model 7B voor $ 140 en een Model 13B voor ongeveer $ 300.
Het team achter LLaMA heeft de prestaties van Vicuna geëvalueerd met behulp van een GPT-4-model. Vicuna heeft geweldige resultaten en een kwaliteitsscore van meer dan 90% in vergelijking met andere populaire chatbots zoals ChatGPT en Google Bard. Het presteerde in meer dan 90% van de gevallen beter dan chatbotmodellen zoals LLaMA en Stanford Alpaca. De totale kosten van het trainen van Vicuna bedragen ongeveer $ 300, wat het een goede en kosteneffectieve oplossing maakt voor de ontwikkeling van chatbots.
De Vicuna-13B is een geweldige goedkope ontwikkeling op het gebied van chatbots. Hoewel het enkele beperkingen heeft als het gaat om logica of wiskunde, kan het met wat aanvullend onderzoek en aanpassingen nuttig en veelbelovend zijn voor toekomstig gebruik.
scan de bloggenEn github En experimenteel. Alle eer voor dit onderzoek gaat naar de onderzoekers van dit project. Vergeet ook niet mee te doen 17k+ML sub-redditEn onenigheid kanaalEn Email nieuwsbriefwaar we het laatste AI-onderzoeksnieuws, coole AI-projecten en meer delen.
Tania Malhotra is een laatste jaar van de University of Petroleum and Energy Studies, Dehradun, en volgt een BTech in Computer Science Engineering met een specialisatie in kunstmatige intelligentie en machine learning.
Ze is gepassioneerd door datawetenschap en heeft een goed analytisch en kritisch denkvermogen, samen met een grote interesse in het verwerven van nieuwe vaardigheden, het leiden van groepen en het organiseren van werk.
🔥 MOET LEZEN – Wat is een AI-hallucinatie? Wat gaat er mis met AI-chatbots? Hoe ontdek je de aanwezigheid van hallucinaties van kunstmatige intelligentie?