Les derniers modèles d’IA d’OpenAI, officiellement publiés sous le nom d’O3 et O4-MINI le 16 avril, montrent une capacité frappante pour identifier les emplacements du monde réel représenté sur les photographies, allant au-delà de la reconnaissance d’image simple en déduction géographique complexe. Cette capacité, rapidement notée par les utilisateurs testant les nouveaux modèles, a déclenché une discussion en ligne répandue, principalement centrée sur les risques de confidentialité potentiels maintenant associés au partage de modèles extérieurs apparemment inoffensifs crédités avec une amélioration visuelle améliorée
Le timing suggère fortement que ces gèlines Geolalation tient directement à partir de l’o 3 et du time libérer. L’annonce d’OpenAI a souligné que ces modèles possèdent une perception visuelle nettement améliorée, leur permettant de “Raison profondément sur les entrées visuelles” et effectuer des biens exceptionnellement sur les modèles impliquant une analyse d’images. zoom, recadrage et rotation-pour extraire des détails plus fins, une méthode probable pour identifier les indices géographiques.
Cette progression suit le développement cohérent d’Openai des fonctionnalités multimodales dans le chatppt. Une mise à jour antérieure de GPT-4O en janvier 2025 s’est concentrée sur l’amélioration de son analyse d’image et du raisonnement STEM. À cette époque, OpenAI a indiqué que le modèle devenait meilleur pour interpréter les relations spatiales dans les images. Plus tard, en mars, la génération d’images et les outils d’édition interactifs ont été intégrés dans la plate-forme, cimentant le rôle de Chatgpt en tant qu’outil capable de gérer à la fois les données de texte et visuelles.
Les tests utilisateur sont prometteurs et des problèmes
Les forums en ligne, en particulier un Hacker News Thread Spargé par un FedIverse Post , rapidement rempli d’expériences utilisateur testant les nouveaux modèles. Le poste FedIverse original de «Piegames» a affirmé avec hardiment: «Geogueser est maintenant un problème résolu». Les résultats partagés par la communauté brossent cependant une image plus complexe.
Certains utilisateurs ont atteint une précision surprenante. Un Chatgpt a démontré un Street View Scene à Cairns, Australie , à moins de 200 mètres, avec les AI, ajoutant les photos de Cairns, non plus.”
Auparavant en ligne. Pourtant, de nombreux tests ont révélé des erreurs importantes: les modèles déroutant les continents, identifiant mal les points de repère, plaçant des photos de milliers de kilomètres ou inventant en toute confiance des détails incorrects. La fiabilité semble incohérente, ne pas en moins de la revendication du «problème résolu», en particulier par rapport aux joueurs humains qualifiés comme Geoguessr Champion Rainbolt ou même d’autres outils d’IA dans des scénarios spécifiques.
Lors de la gestion de mes propres tests, O3 était capable d’identifier les emplacements précisément dans la plupart des cas. Là où il a échoué, il a demandé quelques détails minimaux, puis a trouvé le bon endroit au deuxième virage. Même l’image suivante d’une formation rocheuse aléatoire, il s’est identifié correctement après avoir fait allusion à la région autonome en Espagne où elle est située, nommant l’emplacement exact de la route sur une route rurale.