De AI van Google introduceert de ViT-22B: het grootste vision-adaptermodel is 5,5 keer groter dan het vorige grootste vision-model ViT-e

Transformers hebben indrukwekkende capaciteiten laten zien in verschillende Natural Language Processing (NLP)-taken, waaronder taalmodellering, machinevertaling en het genereren van tekst. Deze neurale netwerkarchitecturen zijn geschaald om grote doorbraken te bereiken in de verwerking van natuurlijke taal.

Een van de belangrijkste voordelen van de adapterarchitectuur is de mogelijkheid om langdurige afhankelijkheden in de tekst vast te leggen, wat van cruciaal belang is voor veel NLP-taken. Dit gaat echter ten koste van hoge rekenvereisten, waardoor het moeilijk wordt om grote transformatormodellen te trainen.

Onderzoekers hebben de afgelopen jaren de grenzen verlegd van het opschalen van transformatoren naar grotere modellen, met behulp van krachtigere hardware en gedistribueerde trainingstechnieken. Dit heeft geresulteerd in aanzienlijke verbeteringen in de prestaties van het taalmodel op verschillende benchmarks, zoals de GLUE- en SuperGLUE-benchmarks.

🚀 Word lid van de snelste ML Subreddit-community

Language Large Models (LLM’s) zoals PaLM en GPT-3 hebben bewezen dat het schalen van adapters naar honderden miljarden parameters de prestaties verbetert en opkomende mogelijkheden ontsluit. De dichtste modellen voor beeldbegrip hebben echter slechts 4 miljard parameters bereikt, ondanks onderzoek dat aangeeft dat multimodale modellen zoals PaLI baat hebben bij het uitbreiden van hun taal- en inzichtmodellen. Daarom besloten de wetenschappers, gemotiveerd door de resultaten van het schalen van LLM’s, om de volgende stap te zetten in het schalen van de beeldtransducer.

Het artikel presenteert ViT-22B, het grootste tot nu toe gepresenteerde verdichte visiemodel, met 22 miljard parameters, 5,5 keer groter dan het vorige grootste visiewerkpaard, ViT-e, met 4 miljard parameters. Om deze meting te bereiken, combineerden de onderzoekers ideeën van schriftuurlijke modellen zoals PaLM, waaronder verbeteringen aan trainingsstabiliteit door QK-normalisatie en trainingsefficiëntie met behulp van een nieuwe benadering die asynchrone parallelle lineaire processen wordt genoemd. De ViT-22B kan worden getraind op Cloud TPU’s met een hoog hardwaregebruik dankzij de gewijzigde architectuur, het efficiënte hashing-recept en de on-demand implementatie. Het model ontwikkelt state-of-the-art in verschillende visietaken met bevroren weergaven of volledige aanpassing. Bovendien is het met succes gebruikt in PaLM-e, wat aantoont dat een groot model dat de ViT-22B combineert met een taalmodel, de nieuwste technologie in robotica-missies aanzienlijk kan verbeteren.

De onderzoekers bouwden voort op ontwikkelingen in grote taalmodellen zoals PaLM en GPT-3 om ViT-22B te creëren. Ze gebruikten parallelle lagen, waarbij de aandachtsblokken en MLP parallel worden uitgevoerd in plaats van opeenvolgend zoals in de standaard Switch-architectuur. Deze aanpak werd gebruikt in PaLM en verkortte de trainingstijd met 15%.

ViT-22B negeert vooroordelen in QKV- en LayerNorms-projecties, waardoor het gebruik met 3% toeneemt. Delen is essentieel voor modellen van deze schaal en het team stelt modelparameters en activeringen samen. Ze ontwikkelden de benadering van asynchrone parallelle lineaire bewerkingen, waarbij de communicatie van activeringen en gewichten tussen apparaten gelijktijdig plaatsvindt als rekenkunde in de matrixvermenigvuldigingseenheid, wat de wachttijd voor de inkomende verbinding vermindert en de efficiëntie van het apparaat verhoogt.

Aanvankelijk leidde de schaal van het nieuwe model tot ernstige instabiliteit in de training. De normalisatiebenadering van Gilmer et al. (2023, binnenkort) loste deze problemen op, waardoor een soepele en stabiele modeltraining mogelijk werd.

ViT-22B werd geëvalueerd met menselijke vergelijkingsgegevens en had de nieuwste afstemming met menselijke visuele objectherkenning. Net als mensen heeft het model een aanzienlijke vormafwijking en gebruikt het voornamelijk de vorm van objecten om classificatiebeslissingen te nemen. Dit duidt op een grotere gelijkenis met menselijke cognitie in vergelijking met standaardparadigma’s.

De ViT-22B is het grootste weergavetransducermodel met 22 miljard parameters en heeft geavanceerde prestaties geleverd met aanzienlijke architectonische veranderingen. Het vertoont steeds meer overeenkomsten met de menselijke visuele perceptie en biedt voordelen op het gebied van eerlijkheid en robuustheid. Het maakt gebruik van bevroren modellen om texturen te produceren, en het trainen van dunne lagen tot de hoogste doorvoer zorgt voor uitstekende prestaties op vele parameters.


scan de papier En Google-blog. Alle eer voor dit onderzoek gaat naar de onderzoekers van dit project. Vergeet ook niet mee te doen 17k+ML sub-redditEn onenigheid kanaalEn Email nieuwsbriefwaar we het laatste AI-onderzoeksnieuws, coole AI-projecten en meer delen.


Niharika is een Technisch Consultant Stagiair bij Marktechpost. Ze is een derdejaars studente en volgt momenteel een Bachelor of Technology-graad aan het Indian Institute of Technology (IIT), Kharagpur. Ze is een zeer gemotiveerde persoon met een grote interesse in machine learning, data science en kunstmatige intelligentie en een fervent lezer van de laatste ontwikkelingen op deze gebieden.


🔥 MOET LEZEN – Wat is een AI-hallucinatie? Wat gaat er mis met AI-chatbots? Hoe ontdek je de aanwezigheid van hallucinaties van kunstmatige intelligentie?

Kommentar veröffentlichen

Neuere Ältere

نموذج الاتصال