Het Tongyi-lab van Alibaba heeft R1-Omni onthuld, een open-source kunstmatige intelligentie (AI)-model die in staat is om menselijke emoties te interpreteren door visuele en auditieve gegevensanalyse.

R1-omni maakt gebruik van versterking leren met verifieerbare beloning (RLVR), waardoor de redenering, nauwkeurigheid en aanpassingsvermogen worden verbeterd. Het model positioneert Alibaba naast toonaangevende AI-concurrenten zoals Openai en Deepseek, die een strategische vooruitgang markeert in de Sector van de AI-modellen.

Volgens Alibaba past R1-omni voor het eerst RLVR toe binnen een multimodaal groot taalmodel. Het bedrijf stelt :”R1-omni is de eerste toepassing van de industrie van versterkingsleren met verifieerbare beloningen (RLVR) op een omni-multimodaal groot taalmodel. We focus on emotion recognition, a task where both visual and audio modalities play crucial roles, to validate the potential of combining RLVR with Omni model.”

RLVR en hoe het het leren van R1-Omni bevordert

RLVR werkt door het AI-model alleen te belonen wanneer de uitgangen voldoen aan verifieerbare criteria, waardoor het leerproces van het model wordt begeleid door nauwkeurige en prijze feedback.

Het trainingsproces van het model heeft grote datasets zoals MAFW en DFEW opgenomen, met meer dan 15.000 videomonsters, waardoor het vermogen wordt verbeterd om herkenning te generaliseren in verschillende scenario’s.

Om trainingsefficiëntie te stroomlijnen, r1-omni integreert