Onderzoekers van ETH Zürich en Microsoft hebben X-Avatar voorgesteld: een geanimeerd menselijk impliciet avatarmodel dat in staat is om de menselijke lichaamshouding en gezichtsuitdrukkingen vast te leggen.

Houding, blik, gezichtsuitdrukkingen, handgebaren, enz. – gezamenlijk “lichaamstaal” genoemd – zijn het onderwerp geweest van veel academisch onderzoek. Het nauwkeurig opnemen, interpreteren en creëren van non-verbale signalen kan het realisme van avatars in telepresence-, augmented reality- (AR) en virtual reality-instellingen (VR) verbeteren.

De huidige huidige avatarmodellen, zoals die in de SMPL-familie, kunnen verschillende vormen van het menselijk lichaam correct weergeven in realistische poses. Ze worden echter beperkt door de op rasters gebaseerde representaties die ze gebruiken en de kwaliteit van het 3D-raster. Bovendien simuleren dergelijke modellen vaak alleen naakte lichamen en tonen ze geen kleding of haar, wat het realisme van de resultaten vermindert.

Ze introduceren de X-Avatar, een innovatief model dat het volledige scala van menselijke expressie in digitale avatars kan vastleggen om virtual reality, augmented reality en virtual reality-omgevingen te creëren. X-Avatar is een impliciet menselijk expressiemodel ontwikkeld door onderzoekers van ETH Zürich en Microsoft. Het kan met hoge precisie menselijke lichaams- en handbewegingen, gezichtsemoties en andere uiterlijke kenmerken vastleggen. De technologie kan leren van volledige 3D-scans of RGB-D-gegevens, waardoor uitgebreide modellen van lichamen, handen, gezichtsemoties en uiterlijk worden geproduceerd.

De onderzoekers stellen een gedeeltelijk gerealiseerde geavanceerde leermodule voor die kan worden bestuurd door SMPL-X-parameterruimte, waardoor expressieve animatie van X-Avatars mogelijk wordt. De onderzoekers introduceren unieke, gedeeltelijk bewuste samples en initialisatie-algoritmen om neurale vorm- en vervormingsdomeinen effectief te trainen. Onderzoekers vergroten de velden van geometrie en vervorming met een textuurraster dat is aangepast aan de positie, gezichtsuitdrukking, geometrie en natuurlijke regels van het vervormbare oppervlak om het uiterlijk van de avatar in hoogfrequente details vast te leggen. Dit resulteert in verbeterde nauwkeurigheidsresultaten, vooral voor kleinere lichaamsdelen, terwijl de trainingseffectiviteit behouden blijft ondanks het toegenomen aantal articulerende botten. De onderzoekers tonen empirisch aan dat de aanpak superieure kwantitatieve en kwalitatieve resultaten behaalt in de animatietaak in vergelijking met sterke baselines in beide dataregio’s.

🔥 Aanbevolen literatuur: gebruikmaken van TensorLeap om efficiënte overdracht te leren: hiaten in het veld overwinnen

De onderzoekers presenteerden een nieuwe dataset, genaamd X-Humans, met 233 series hoogwaardige scans van 20 proefpersonen, van 35.500 dataframes om toekomstig onderzoek naar emoji-avatars te ondersteunen. X-Avatar stelt een menselijk model voor met gearticuleerde neurale impliciete oppervlakken die passen bij de diverse topologie van de geklede personen en een verbeterde geometrische nauwkeurigheid en een grotere getrouwheid aan het algehele uiterlijk bereiken. De auteurs van het onderzoek identificeren drie verschillende neurale domeinen: een voor het modelleren van geometrie met behulp van een impliciet bezettingsnetwerk, een ander voor het modelleren van vervorming met behulp van verworven lineaire blend peeling (LBS) met continue skinning-gewichten, en een derde voor het modelleren van uiterlijk met behulp van een RGB-kleurwaarde.

De X-Avatar kan een 3D-scan of een RGB-D-afbeelding maken voor verwerking. Een deel van zijn ontwerp omvat een modulatienetwerk voor het modelleren van geometrie in de canonieke ruimte en een deformatienetwerk dat gebruikmaakt van aangeleerde lineaire blend skinning (LBS) om overeenkomsten te construeren tussen canonieke en vervormde gebieden.

De onderzoekers beginnen met de SMPL-X-parameterruimte, een uitbreiding van SMPL die de vorm, het uiterlijk en de misvormingen van mensen uit het hele lichaam vastlegt, met bijzondere aandacht voor handposities en gezichtsemoties om expressieve en controleerbare menselijke avatars te genereren. Het menselijke model beschreven door de neuromusculaire impliciete oppervlakken vertegenwoordigt de verschillende structurele articulatie van de geklede individuen. Tegelijkertijd verbetert de unieke part-aware initialisatiemethode het realisme van het resultaat aanzienlijk door de samplefrequentie voor kleinere lichaamsdelen te verhogen.

De resultaten tonen aan dat X-Avatar nauwkeurig de posities van het menselijk lichaam en de hand kan vastleggen, evenals gezichtsemoties en uiterlijk, waardoor meer expressieve en realistische avatars kunnen worden gecreëerd. De groep achter dit initiatief houdt de vingers gekruist dat hun methode verdere studies kan inspireren om AI meer persoonlijkheid te geven.

De gebruikte dataset

hoogwaardige scans en SMPL (-X) opnames; 20 onderwerpen; 233 reeksen 35427 frames; lichaamshouding + handgebaar + gezichtsuitdrukking; een breed scala aan kleding- en kapselopties; Breed scala aan leeftijden

Functies

  • Er zijn verschillende manieren om X-Avatars te leren.
  • Afbeelding van de 3D-scans gebruikt in de training, rechtsboven. Onderaan: testmodusgestuurde avatars.
  • RGB-D informatie voor educatieve doeleinden, hierboven. Modustestavatars werken op een lager niveau.
  • Deze aanpak herstelt meer handarticulatie en gezichtsuitdrukking dan andere basislijnen in testanimatie. Dit resulteert in geanimeerde X-Avatars met behulp van animaties die door PyMAF-X zijn hersteld van RGB-films met één oog.

bepalende factoren

X-Avatar heeft moeite met het ontwerpen van off-the-shoulder shirts of broeken (zoals rokken). Onderzoekers trainen echter vaak slechts één model per onderwerp, dus hun vermogen om verder te generaliseren dan een enkel individu moet nog worden uitgebreid.

bijdragen

  • X-Avatar is het eerste stilzwijgende menselijke expressieve model dat lichaamshouding, handhouding, gezichtsemotie en uiterlijk volledig vastlegt.
  • Initialisatie- en bemonsteringsprocedures die rekening houden met de onderliggende structuur verbeteren de uitvoerkwaliteit en handhaven de trainingsefficiëntie.
  • X-Humans is een gloednieuwe dataset die bestaat uit 233 sequenties met in totaal 35.500 frames van hoogwaardige scans met hoge resolutie van 20 proefpersonen die een breed scala aan lichaamsbewegingen, handen en gezichtsemoties weergeven.

X-Avatar is ongeëvenaard bij het vastleggen van lichaamshouding, handpositie, gezichtsemotie en algemene verschijning. Met behulp van een onlangs vrijgegeven X-Humans-dataset demonstreerden de onderzoekers de methode


scan de papierEn projecterenEn github. Alle eer voor dit onderzoek gaat naar de onderzoekers van dit project. Vergeet ook niet mee te doen 16k+ML sub-redditEn onenigheid kanaalEn Email nieuwsbriefwaar we het laatste AI-onderzoeksnieuws, coole AI-projecten en meer delen.


Dhanshree Shenwai is een informatica-ingenieur met gedegen ervaring in FinTech-bedrijven op het gebied van financiën, kaarten, betalingen en bankieren met een grote interesse in AI-toepassingen. Ze is gepassioneerd door het verkennen van nieuwe technologieën en ontwikkelingen in de veranderende wereld van vandaag, waardoor het leven van iedereen gemakkelijk wordt.


Kommentar veröffentlichen

Neuere Ältere

نموذج الاتصال