Aan wie weerspiegelt u de mening van de Master of Law? Deze AI-paper van Stanford University onderzoekt de meningen van LM's door de lens van opiniepeilingen

In de afgelopen paar jaar is waargenomen dat taalmodellen, of LM’s, buitengewoon nuttig zijn geweest bij het versnellen van het tempo van toepassingen van natuurlijke taalverwerking in verschillende sectoren, zoals de gezondheidszorg, softwareontwikkeling, financiën en nog veel meer. Het gebruik van LM’s om programmacode te schrijven, auteurs te helpen hun schrijfstijl en verhaal te verbeteren, enz. behoren tot de meest succesvolle en populaire toepassingen van op adapters gebaseerde modellen. Dat is echter niet alles! Onderzoek heeft aangetoond dat LM’s steeds vaker in open contexten worden gebruikt als het gaat om hun toepassingen in chatbots en dialoogassistenten door ze subjectieve vragen te stellen. Enkele voorbeelden van dergelijk zelfonderzoek zijn bijvoorbeeld de vraag aan de dialoogagent of kunstmatige intelligentie de wereld de komende jaren gaat overnemen of dat het legaliseren van euthanasie een goed idee is. In een dergelijke situatie kunnen de meningen die de LM uitdrukt in antwoord op subjectieve vragen niet alleen van grote invloed zijn op de bepaling of de LM onderhevig is aan bepaalde vooroordelen en vooroordelen, maar ook op de vorming van de algemene opvattingen van de samenleving.

Op dit moment is het erg moeilijk om nauwkeurig te voorspellen hoe LM’s zullen reageren op dergelijke interpersoonlijke vragen om hun prestaties op taken met een open einde te beoordelen. De belangrijkste reden hiervoor is dat de mensen die verantwoordelijk zijn voor het ontwerpen en afstemmen van deze modellen uit verschillende lagen van de bevolking komen en verschillende perspectieven hebben. Bovendien, als het gaat om subjectieve vragen, is er geen “juist” antwoord dat kan worden gebruikt om een ​​model te beoordelen. Als gevolg hiervan kan het soort standpunten dat een formulier presenteert een grote invloed hebben op de tevredenheid van gebruikers en hoe zij hun mening vormen. Om LM’s in taken met een open einde goed te kunnen beoordelen, is het dus cruciaal om nauwkeurig de meningen te identificeren van de mensen wiens meningen worden weerspiegeld en hoe deze aansluiten bij de meerderheid van de bevolking in het algemeen. Voor dit doel heeft een team van postdoctorale onderzoekers van Stanford University en Columbia University een breed kwantitatief kader ontwikkeld om de door LM gegenereerde meningen te bestuderen en af ​​te stemmen op verschillende populaties. Om de menselijke perspectieven te analyseren, gebruikte het team door experts geselecteerde opiniepeilingen en hun antwoorden verzameld van personen die tot verschillende demografische groepen behoorden. Bovendien heeft het team een ​​nieuwe dataset ontwikkeld, OpinionQA genaamd, om te beoordelen hoe goed de ideeën van LM aansluiten bij andere demografische groepen over een reeks kwesties, waaronder abortus en wapengeweld.

Indien gebruikt, vertrouwden de onderzoekers op zorgvuldig ontworpen opiniepeilingen waarvan de onderwerpen door experts waren gekozen. Bovendien zijn de vragen ontworpen in een meerkeuzeformaat om de uitdagingen te overwinnen die gepaard gaan met open antwoorden en voor gemakkelijke aanpassing aan de LM-prompt. Deze enquêtes verzamelden de meningen van individuen die tot verschillende democratische groeperingen in de Verenigde Staten behoorden en hielpen onderzoekers van Stanford en Columbia bij het opstellen van beoordelingsschalen om te meten in hoeverre schriftelijke LM-antwoorden overeenkomen met menselijke meningen. Het uitgangspunt achter het door de onderzoekers voorgestelde raamwerk is om meerkeuzeonderzoeken van de publieke opinie om te zetten in datasets om kinetische meningen te beoordelen. Elke enquête bestaat uit verschillende vragen waarbij elke vraag verschillende mogelijke antwoorden kan hebben die behoren tot een breed scala aan onderwerpen. Als onderdeel van hun studie moesten de onderzoekers eerst een verdeling van menselijke meningen creëren waarmee genetische bewegingsreacties konden worden vergeleken. Het team paste deze methodologie vervolgens toe op onderzoeken die werden uitgevoerd door de US Trends Committee van Pew Research om de OpinionQA-dataset samen te stellen. De enquête bestaat uit 1.498 meerkeuzevragen en hun antwoorden verzameld uit verschillende bevolkingsgroepen in de Verenigde Staten over verschillende onderwerpen zoals wetenschap, politiek, persoonlijke relaties, gezondheidszorg, enz.

🚀 Word lid van de snelste ML Subreddit-community

Het team evalueerde 9 LM’s van AI21 Labs en OpenAI met criteria variërend van 350 miljoen tot 178 miljard met behulp van de OpinionQA-dataset die werd gegenereerd door de mening van het model te vergelijken met die van de totale Amerikaanse bevolking en 60 verschillende demografische groepen (inclusief democraten en personen ouder dan 65 jaar). weduwe, enz.). De onderzoekers keken vooral naar drie aspecten van de resultaten: representatie, directiviteit en consistentie. “Kenmerkend” verwijst naar de mate waarin de overtuigingen van de hypothetische LM samenvallen met de overtuigingen van de Amerikaanse bevolking als geheel of een bepaald segment. Er werd ontdekt dat er een grote discrepantie bestaat tussen de opvattingen van hedendaagse LM’s en de meningen van Amerikaanse demografische groepen over verschillende onderwerpen zoals klimaatverandering, enz. Bovendien lijkt deze verkeerde uitlijning alleen maar te zijn versterkt door op menselijke feedback gebaseerde fijnafstemming te gebruiken om het menselijker te maken. Ook bleken de huidige LM’s de standpunten van sommige groepen, zoals 65-plussers en weduwen, onvoldoende weer te geven. Als het gaat om stuurbaarheid (of de LM de mening van de groep volgt als daar op de juiste manier om wordt gevraagd), is gebleken dat de meeste LM’s de neiging hebben om meer afgestemd te raken op de groep wanneer ze worden aangemoedigd om op een bepaalde manier te handelen. Onderzoekers hebben zich veel gericht op het bepalen of de opvattingen van verschillende democratische groepen overeenkomen met LM over een reeks kwesties. Wat dit betreft, bleek dat hoewel sommige LM goed aansluiten bij bepaalde groepen, de verdeling niet over alle onderwerpen standhield.

Samenvattend heeft een groep onderzoekers van Stanford en Columbia University een opmerkelijk raamwerk ontwikkeld dat de meningen van LM kan analyseren met behulp van opiniepeilingen. Hun raamwerk resulteerde in een nieuwe dataset, OpinionQA genaamd, die hielp bij het identificeren van de manieren waarop LM’s op verschillende fronten niet overeenkomen met menselijke meningen, waaronder algemene vertegenwoordiging in relatie tot de meerderheid van de bevolking in de Verenigde Staten, en subgroepvertegenwoordiging in verschillende groepen (inclusief 65+ en weduwen) en het vermogen om te regisseren. De onderzoekers wijzen er ook op dat, hoewel de dataset van OpinionQA op de VS is gericht, hun raamwerk een algemene methodologie gebruikt en ook kan worden uitgebreid tot datasets voor verschillende regio’s. Het team hoopt ten zeerste dat hun werk verder onderzoek zal stimuleren naar het evalueren van LM’s in taken met een open einde en zal helpen een LM te creëren die vrij is van vooringenomenheid en stereotypen. Meer details over de OpinionQA-dataset vindt u hier.


scan de papier En github. Alle eer voor dit onderzoek gaat naar de onderzoekers van dit project. Vergeet ook niet mee te doen 17k+ML sub-redditEn onenigheid kanaalEn Email nieuwsbriefwaar we het laatste AI-onderzoeksnieuws, coole AI-projecten en meer delen.


Khushboo Gupta is een Consultant Trainee bij MarktechPost. Ze volgt momenteel haar Bachelor of Technology-graad aan het Indian Institute of Technology (IIT), Goa. Ze is gepassioneerd door machine learning, natuurlijke taalverwerking en webontwikkeling. Je vindt het leuk om meer te leren over het technische vakgebied door deel te nemen aan verschillende challenges.


🔥 MOET LEZEN – Wat is een AI-hallucinatie? Wat gaat er mis met AI-chatbots? Hoe ontdek je de aanwezigheid van hallucinaties van kunstmatige intelligentie?

Kommentar veröffentlichen

Neuere Ältere

نموذج الاتصال