OpenAI a echipat Modul vocal avansat al ChatGPT cu capacități de viziune, permițând utilizatorilor să partajeze videoclipuri și ecrane live pentru analiză și asistență în timp real.

Acest lucru marchează o extindere majoră a funcționalității ChatGPT, transformându-l într-un asistent AI conștient vizual, capabil să interacționeze cu lumea fizică și digitală.

Anunțat ca parte a „12 zile de OpenAI” OpenAI”, actualizarea îmbunătățește capacitatea ChatGPT de a ajuta la sarcinile din lumea reală, menținând în același timp inteligența conversațională.

AI vizual în acțiune: Cum procesează ChatGPT videoclipurile și ecranele

Noile abilități vizuale ale ChatGPT permit utilizatorilor să implice AI prin îndreptând camerele smartphone-urilor către obiecte sau partajând ecranele dispozitivului Funcția deschide o gamă largă de aplicații, de la explicarea setărilor complexe de pe ecran până la identificarea obiectelor fizice din mediul utilizatorului.

În timpul unei demonstrații live, OpenAI. a prezentat AI care ghidează un utilizator prin procesul de preparare a cafelei. Sistemul a identificat instrumente esențiale, cum ar fi un filtru de cafea și un aparat de bere, oferind instrucțiuni clare, pas cu pas.

Un alt exemplu a implicat ChatGPT să analizeze o ecuație matematică afișată pe un ecran și să explice soluția în detaliu. OpenAI a explicat că funcția conectează interacțiunea vocală cu capacitatea de a interpreta intrările vizuale pentru asistență în timp real.

Partajare ecran în timp ce utilizați Advanced Voice pentru feedback instantaneu despre orice vă uitați. pic.twitter.com/d4Xm36dwOX

— OpenAI (@OpenAI) 12 decembrie, 2024

În ciuda capacităților sale, OpenAI a recunoscut limitările în iterația actuală a sistemului. AI generează ocazional răspunsuri incorecte – denumite „halucinații” – atunci când interpretează date vizuale complexe. Deși aceasta rămâne o provocare, OpenAI a remarcat că sunt în curs de îmbunătățire iterativă pentru a îmbunătăți acuratețea și fiabilitatea.

Lansarea acestora. capabilitățile de viziune începe imediat pentru utilizatorii ChatGPT Plus, Pro și Team, în timp ce abonații Enterprise și Education vor avea acces începând cu ianuarie 2025.

Cu toate acestea, utilizatorii din Uniunea Europeană și anumite țări, cum ar fi Elveția, Islanda și Norvegia, se confruntă cu întârzieri din cauza ajustărilor de conformitate și de reglementare. Pentru a activa funcția, utilizatorii trebuie să acceseze Modul vocal avansat în aplicația ChatGPT, apoi să selecteze videoclipul sau opțiuni de partajare a ecranului pentru a activa asistența vizuală.

Legate: Google dezvăluie Gemini 2.0, Flash 2.0 cu un raționament mai bun și AI Agenți

Actualizări anterioare: îmbunătățiri Canvas cu integrarea Python

Marți, OpenAI a lansat complet Canvas, un spațiu de lucru de editare colaborativă care oferă instrumente avansate atât pentru text, cât și pentru rafinarea codului. Lansat inițial în versiune beta în octombrie 2024, Canvas înlocuiește interfața standard a ChatGPT cu un design cu ecran divizat, permițând utilizatorilor să lucreze la text sau cod în timp ce se angajează în schimburi conversaționale cu AI.

Adăugarea execuției Python este o caracteristică remarcabilă a Canvas, permițând dezvoltatorilor să scrie, să testeze și să depaneze scripturi direct în cadrul platformei. OpenAI și-a demonstrat utilitatea în timpul unui eveniment live utilizând Python pentru a genera și rafina vizualizările de date. OpenAI a descris această caracteristică drept „reducerea frecvenței dintre generarea de idei și implementare”.

Luni, OpenAI a lansat oficial Sora, instrumentul său avansat AI pentru generarea de videoclipuri din mesaje text, semnalând o nouă eră pentru AI creative. Integrat în conturi ChatGPT plătite, Sora permite utilizatorilor să anime imagini statice, să extindă videoclipurile existente și să îmbine scenele în narațiuni coezive.

Vinerea trecută, OpenAI a dezvăluit ChatGPT Pro, un nou nivel de abonament premium cu un preț de 200 USD pe lună, destinat profesioniștilor și întreprinderilor care caută capabilități avansate de AI pentru fluxuri de lucru cu solicitare ridicată.

Noul nivel ChatGPT Pro oferă funcții exclusive, inclusiv acces nelimitat la IA avansată. modele precum GPT-4o, o1 și o1-mini, precum și versiunea completă a modelului de raționament o1, anterior denumit de cod „Căpșuni.”

Context competitiv: mișcarea strategică a OpenAI în cursa AI

Adăugarea de capacități de viziune și funcționalitate extinsă în Canvas subliniază eforturile OpenAI de a menține o poziție de lider în peisajul AI din ce în ce mai competitiv.

Google își avansează Proiectul Astra, un asistent AI capabil să proceseze intrări video live, care se află în prezent în teste limitate cu utilizatori selectați. Între timp, Meta își perfecționează propriile tehnologii vizuale de inteligență artificială, evidențiind concentrarea la nivelul întregii industrie pe integrarea viziunii în platformele de inteligență artificială conversațională.

Implicații în lumea reală ale inteligenței artificiale vizuale

Abilitatea ChatGPT de a procesa videoclipuri în direct și ecrane partajate își extinde utilitatea în diferite domenii. Pentru consumatori, funcția simplifică sarcini precum depanarea problemelor dispozitivului, oferind explicații vizuale ale setărilor de pe ecran sau asistarea cu proiecte practice la domiciliu.

În educație, ChatGPT poate sprijini învățarea la distanță prin interpretarea vizuală a problemelor sau a materialelor partajate de studenți. Pentru profesioniști, în special cei din design, inginerie sau domenii tehnice, capacitatea ChatGPT de a analiza intrările vizuale oferă un nou nivel de funcționalitate, eficientizarea fluxurilor de lucru și creșterea eficienței.

Implicațiile mai largi ale acestei actualizări reflectă o cerere în creștere. pentru sisteme AI care pot interacționa perfect atât cu mediile digitale, cât și cu mediile fizice. Pe măsură ce tehnologiile AI precum ChatGPT evoluează, capacitatea lor de a înțelege și de a răspunde la contextul vizual va deveni din ce în ce mai importantă pentru adoptarea lor în viața de zi cu zi.

Actualizarea viziunii OpenAI pentru ChatGPT și îmbunătățirile aduse spațiului de lucru Canvas semnalează un salt semnificativ. avansat în capacitățile AI conversaționale. Prin integrarea instrumentelor de voce, viziune și codare, OpenAI continuă să extindă aplicațiile practice ale ChatGPT pentru utilizatori în setari personale, educaționale și profesionale.

Categories: IT Info