Ang pinakabagong mga modelo ng AI ng OpenAi, na opisyal na inilabas bilang O3 at O4-Mini noong Abril 16 ay nagpapakita ng isang kapansin-pansin na kapasidad upang makilala ang mga lokasyon ng tunay na mundo na inilalarawan sa mga litrato, na lumilipat sa paglipas ng simpleng pagkilala sa imahe sa kumplikadong pagbawas sa heograpiya. Ang kakayahang ito, na mabilis na nabanggit ng mga gumagamit na sumusubok sa mga bagong modelo, ay nag-trigger ng malawak na talakayan sa online, lalo na nakasentro sa mga potensyal na panganib sa privacy na nauugnay ngayon sa pagbabahagi ng tila walang kasalanan na mga larawan sa labas. pakawalan. Ang pag-anunsyo ni Openai ay nag-highlight na ang mga modelong ito ay nagtataglay ng kapansin-pansing pinabuting visual na pang-unawa, na nagbibigay-daan sa kanila sa “Dahilan nang malalim tungkol sa visual inputs”Proseso-Pag-zoom, Pag-crop, at Pag-ikot-Upang kunin ang mga detalye ng finer, isang pamamaraan na malamang na susi sa pagkilala sa mga pahiwatig ng heograpiya. src=”data: imahe/svg+xml; nitro-empty-id=mtcwnzoxmjcx-1; base64, phn2zyB2AWV3QM94PSIWIDAGMTA4MCA2MD Qiihdpzhropsixmdgwiibozwlnahq9ijywncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
Ang pagsulong na ito ay sumusunod sa pare-pareho na pag-unlad ng OpenAi ng mga tampok na multimodal sa loob ng ChATGPT. Ang isang naunang pag-update sa GPT-4O noong Enero 2025 na nakatuon sa pagpapahusay ng pagsusuri ng imahe at pangangatuwiran ng STEM. Sa oras na iyon, ipinahiwatig ni Openai na ang modelo ay nagiging mas mahusay sa pagbibigay kahulugan sa mga spatial na relasyon sa mga imahe. Nang maglaon, noong Marso, ang henerasyon ng imahe at mga tool sa pag-edit ng interactive ay isinama sa platform, karagdagang semento ang papel ng ChatGPT bilang isang tool na may kakayahang pangasiwaan ang parehong teksto at visual data. href=”https://news.ycombinator.com/item?id=43723408″target=”_ blangko”> hacker news thread sparked by a tanawin ng kalye sa cairns, Australia , sa loob ng 200 metro, kasama ang AI na nagdaragdag ng hindi nakakagulat na komento,”Nakita ko na ang eksaktong bahay bago ang View ng Google Street kapag ginalugad ang mga kapitbahayan ng Cairns. Online. Gayunpaman, maraming mga pagsubok ang nagsiwalat ng mga makabuluhang pagkakamali: ang mga modelo na nakalilito sa mga kontinente, maling pagkilala sa mga pangunahing landmark, paglalagay ng mga larawan libu-libong kilometro, o kumpiyansa na nag-imbento ng mga hindi tamang detalye. Ang pagiging maaasahan ay lilitaw na hindi pantay-pantay, nahuhulog sa pag-angkin ng”nalutas na problema”, lalo na kung ihahambing sa mga bihasang manlalaro ng tao tulad ng Geoguessr Champion Rainbolt o kahit na iba pang mga tool sa AI sa mga tiyak na sitwasyon. Kung saan ito nabigo, humiling ito ng ilang kaunting mga detalye at pagkatapos ay natagpuan ang tamang lugar sa pangalawang pagliko. Kahit na ang sumusunod na larawan ng isang random na pagbuo ng bato ay nakilala nang tama pagkatapos ng pahiwatig sa awtonomikong rehiyon sa Espanya kung saan matatagpuan ito, na pinangalanan ang eksaktong diskarte sa kalsada sa kanayunan. Ang mga landmark ng cross-referencing sa pamamagitan ng paghahanap sa web-mga pamamaraan ng mga mirrors na ginagamit ng mga manlalaro ng tao sa sikat na geoguessr game . Habang ang AI tackling na ito ay hindi bago-Stanford’s Modelong kalapati Naiulat na nagbigay ng bahaghari sa 2023 bago ang mga tagalikha nito ay hindi na ito dahil sa mga pagkabahala sa kaligtasan, at mga frameworks tulad ng geollm ginalugad ang konsepto sa 2024-pagsasama nito sa isang malawak na naa-access na platform tulad ng Chatgpt ay nagbabago ang equation. Ang nauna nang hinihiling na dedikadong pagsisikap o kadalubhasaan ay maaaring makamit ngayon ng halos sinuman. Maaaring gawin ito ng Stalker para sa 20 €/mo'”, isang gumagamit. Ang pag-aalala na ito ay hindi ganap na nobela; Ang mga tagapagtaguyod ng privacy ay dati nang nagtaas ng mga alarma tungkol sa potensyal ng AI para sa geolocation mula sa mga imahe. Tulad ng iniulat ng mashable , sinabi ng isang tagapagsalita ng openai:”Ang Openai O3 at O4-Mini ay nagdadala ng visual na pangangatuwiran sa chatgpt, na mas kapaki-pakinabang sa mga lugar na tulad ng pag-access, pananaliksik, o pagkilala sa mga lokasyon sa emerhensiya. Ang aming mga modelo upang tanggihan ang mga kahilingan para sa pribado o sensitibong impormasyon, idinagdag ang mga proteksyon na inilaan upang pagbawalan ang modelo mula sa pagkilala sa mga pribadong indibidwal sa mga imahe, at aktibong sinusubaybayan at kumilos laban sa pag-abuso sa aming mga patakaran sa paggamit sa privacy.”