OpenAI a dévoilé Reinforcement Fine-Tuning (RFT), un nouveau framework conçu pour permettre la personnalisation des modèles d’IA pour des applications spécifiques à un secteur. Présentée lors de l’événement « 12 Days of OpenAI » d’OpenAI, RFT permet aux développeurs d’améliorer les capacités de raisonnement de l’IA avec des ensembles de données et des rubriques d’évaluation spécifiques à un domaine.
La nouvelle fonctionnalité, destinée aux entreprises et aux chercheurs, s’aligne sur les efforts plus larges d’OpenAI. pour combler le fossé entre les modèles d’IA généralisés et les besoins spécialisés de l’industrie.
Le RFT est accompagné du lancement du plan ChatGPT Pro dès le premier jour des « 12 jours de OpenAI”, un abonnement de 200 $ par mois conçu pour les professionnels. Le plan comprend le mode o1 Pro, présenté comme l’IA de raisonnement la plus fiable d’OpenAI à ce jour. Cependant, les premières évaluations du mode o1 Pro révèlent à la fois son potentiel et ses limites, mettant en évidence les défis actuels. dans le perfectionnement des systèmes d’IA avancés pour une utilisation pratique.
Qu’est-ce que le réglage fin du renforcement ?
Le réglage fin du renforcement est la dernière approche d’OpenAI pour améliorer les modèles d’IA en les entraînant avec des ensembles de données et des systèmes de notation fournis par les développeurs. Contrairement à l’apprentissage supervisé traditionnel, qui se concentre sur la réplication des résultats souhaités, RFT met l’accent sur le raisonnement et la résolution de problèmes adaptés à des domaines spécifiques.
Dans son annonce, OpenAI a décrit RRFT comme un outil qui permet aux organisations de former des modèles experts sans nécessiter de connaissances approfondies en apprentissage par renforcement.
[contenu intégré]
Tôt les adoptants, tels que Thomson Reuters et Berkeley Lab, ont déjà démontré son utilité, affirme OpenAI. Thomson Reuters a utilisé RFT pour développer un assistant juridique capable d’analyser des textes juridiques complexes, tandis que Berkeley Lab l’a appliqué à la recherche génétique, révélant ainsi des informations sur les maladies rares.
S’appuyer sur des innovations antérieures
RFT et o1 Pro Mode sont les dernières étapes des efforts d’OpenAI pour affiner les performances et l’alignement de l’IA. Plus tôt cette année, OpenAI a introduit CriticGPT, un outil conçu pour aider les formateurs humains à évaluer les résultats générés par l’IA.
CriticGPT s’est révélé particulièrement efficace dans les révisions de code, identifiant les erreurs que les annotateurs humains négligent souvent. En combinant l’expertise humaine avec l’évaluation de l’IA, OpenAI vise à améliorer la fiabilité de ses modèles.
Des concurrents comme Microsoft font également progresser les méthodologies de formation de l’IA. Les modèles de langage auto-explorants (SELM) de Microsoft exploitent les fonctions de récompense pour améliorer les capacités de suivi des instructions.
L’anticipation de GPT-4.5
Comme le « 12 » d’OpenAI La campagne”Days of OpenAI”se poursuit, les spéculations autour de GPT-4.5 se multiplient. Devant faire ses débuts plus tard ce mois-ci, GPT-4.5 offrirait un raisonnement amélioré, des capacités multimodales étendues et génération améliorée de langage créatif. Les observateurs du secteur le considèrent comme une solution potentielle aux limites du mode o1 Pro, en particulier dans les tâches nécessitant adaptabilité et abstraction.
Philip, le développeur du benchmark respecté SimpleBench, a commenté le potentiel de GPT.-4.5, déclarant: « Ils ne justifieront en aucun cas 200 $ par mois uniquement pour le mode Pro. » L’ajout de GPT-4.5 pourrait redéfinir la proposition de valeur du plan ChatGPT Pro, en comblant les lacunes actuelles et en élargissant son attrait à un public plus large.
L’introduction de RFT et du mode o1 Pro marque un pas en avant dans le développement d’OpenAI. mission d’aligner les capacités de l’IA sur les demandes du monde réel. Bien que ces outils soient prometteurs dans les applications spécialisées.