Pinalawak ng OpenAI ang mga alok ng developer nito sa pamamagitan ng paglulunsad ng buong bersyon ng modelong o1 nito sa pamamagitan ng API nito. Ang advanced na modelo ng pangangatwiran na ito, na mahusay sa kumplikado, maraming hakbang na mga gawain, ay nagpapakilala ng mga bagong feature na nangangako na muling bubuo kung paano bumuo ang mga developer ng mga application na pinapagana ng AI.
Ang update ay bahagi ng serye ng mga anunsyo na”12 Araw ng OpenAI”, kung saan naglalabas ang kumpanya ng mga bagong feature at update para sa mga pangunahing produkto nito.
Kasabay ng modelong o1, ang OpenAI ay may nag-anunsyo din ng mga pagpapahusay sa Realtime API nito para sa mga pakikipag-ugnayan ng boses at isang bagong kagustuhang paraan ng fine-tuning, na nagbibigay sa mga developer ng hindi pa nagagawang flexibility.
Pinapalitan ng modelong o1-2024-12-17 ang bersyon ng o1-preview na inilunsad noong unang bahagi ng taong ito modelo ay nag-aalok ng”mas komprehensibo at tumpak na mga tugon, lalo na para sa mga tanong na nauukol sa programming at negosyo, at mas mababa malamang na hindi tama ang pagtanggi sa mga kahilingan.”Ang mga pagpapahusay na ito, kasama ng 60% na pagbawas sa paggamit ng token ng pangangatwiran, ay ginagawang mas mabilis, mas mahusay, at mas maraming nalalaman ang modelo ng o1.
Pagsusulong ng Pangangatwiran sa pamamagitan ng API gamit ang Modelong o1
Ang modelong o1 ng OpenAI ay idinisenyo upang harapin ang mga gawain na nangangailangan ng lohikal na pagkakapare-pareho at lalim ng analytical, na higit sa pagganap ng mga nakaraang pag-ulit sa mga benchmark tulad ng SWE-Bench Verified at AIME.
Iniulat ng OpenAI na ang katumpakan para sa mga gawain sa programming ay tumaas mula 52.3% hanggang 76.6%, habang ang pagganap sa mga problema sa matematika ay tumaas mula 42% hanggang sa halos 80%.
Source: OpenAI
Ang isang standout na feature ay structured output support, na nagpapahintulot sa mga developer na bumuo ng mga tugon sa mga paunang natukoy na format gaya ng JSON.
Tinitiyak nito ang tuluy-tuloy na pagsasama sa mga panlabas na system tulad ng mga API at database, na ginagawang perpekto ang modelo para sa mga application sa suporta sa customer, logistik, at pagsusuri ng data.
Ipinapakilala din ng modelo ang mga kakayahan sa visual na pangangatwiran, pagpapagana ng pagsusuri ng mga larawan para sa mga gawain tulad ng pag-debug o siyentipikong pananaliksik. Halimbawa, ang mga developer ay maaari na ngayong mag-input ng visual na data, gaya ng mga na-scan na dokumento o blueprint, at makatanggap ng mga tugon sa konteksto.
Bukod dito, binibigyang-daan ng bagong parameter na “reasoning effort” ang mga developer na kontrolin kung gaano katagal ang ginagastos ng modelo sa bawat gawain, binabalanse ang katumpakan at kahusayan.
Ipinaliwanag ng OpenAI sa blog nito, “We are rolling paunti-unti ang pag-access habang nagsusumikap na palawakin ang access sa mga karagdagang tier ng paggamit at pagtaas ng mga limitasyon sa rate.”
Pagpapahusay ng Mga Pakikipag-ugnayan sa Boses sa Realtime API
Nagsagawa rin ang OpenAI ng mga makabuluhang update sa Realtime API nito, na nagpapagana sa mga real-time na pakikipag-ugnayan ng boses. Ang pagdaragdag ng WebRTC, Web Real-Time na Komunikasyon — isang protocol para sa mababang latency na komunikasyon — ay nagbibigay-daan sa mga developer na lumikha ng tuluy-tuloy na voice application para sa mga virtual na tutor, katulong, at mga tool sa pagsasalin. Nagbibigay-daan ito sa mga koneksyon ng peer-to-peer (P2P) nang hindi nangangailangan ng mga karagdagang plugin o software.
Na-highlight ng OpenAI ang mga pakinabang ng WebRTC, nagsasaad,”Sa mga sitwasyon kung saan gusto mong kumonekta sa isang Realtime na modelo mula sa isang hindi secure na kliyente sa network (tulad ng isang web browser), inirerekomenda namin ang paggamit ng paraan ng koneksyon sa WebRTC. Ang WebRTC ay mas mahusay na nilagyan upang pangasiwaan ang mga variable na estado ng koneksyon, at nagbibigay ng ilang maginhawang API para sa pagkuha ng mga input ng audio ng user at pag-play ng mga malayuang audio stream mula sa modelo.“
Ang pagpapatupad ng WebRTC ay gumagamit ng tinatawag na ephemeral token, pansamantalang API key na partikular na idinisenyo para sa secure na pagpapatotoo sa mga application sa panig ng kliyente kapag kumokonekta sa OpenAI Realtime API sa WebRTC. Ang layunin nila ay tiyakin ang isang ligtas, panandaliang mekanismo ng pagpapatotoo na umiiwas sa direktang paglantad ng mga sensitibong karaniwang API key sa mga kapaligiran ng kliyente tulad ng mga web browser.
Larawan: OpenAI
Ang mga pag-upgrade sa Realtime API pasimplehin ang proseso ng pagbuo, binabawasan ang code na kinakailangan para sa mga application ng boses habang pinapahusay ang kalidad ng audio at katumpakan ng pagtugon. Ang mga developer ay maaari na ngayong bumuo ng mga application na nagsisimulang bumalangkas ng mga tugon habang nagsasalita pa ang mga user, na nagpapahusay sa pagiging tumutugon.
Ang mga pagsasaayos ng presyo ay ginagawang mas naa-access ang mga voice application. Ang halaga ng GPT-4o audio token ay nabawasan ng 60%, habang ang mga naka-cache na input token ay mas mura na ngayon ng 87.5%. Ipinakilala rin ng OpenAI ang GPT-4o mini, isang cost-effective na opsyon para sa mga developer na naghahanap ng mga abot-kayang alternatibo, na may presyong $10 bawat milyong input token.
Pinapino ang Gawi ng AI gamit ang Preference Fine-Tuning
Preference fine-tuning ay isang bagong paraan ng pag-customize na nagbibigay-daan sa mga developer na pinuhin ang gawi ng modelo batay sa mga ipinares na paghahambing ng mga tugon. Hindi tulad ng tradisyonal na fine-tuning, na umaasa sa eksaktong mga pares ng input-output, ang kagustuhan sa fine-tuning ay nagtuturo sa modelo na makilala sa pagitan ng mas gusto at hindi gaanong kanais-nais na mga tugon.
Inilalarawan ng OpenAI ang paraang ito bilang partikular na epektibo para sa mga pansariling gawain, tulad ng bilang pagsasaayos ng tono at istilo sa malikhaing pagsulat o pagtiyak ng pagsunod sa mga partikular na kinakailangan sa pag-format. Ayon sa OpenAI, ang mga naunang nag-adopt tulad ng isang financial analytics firm, ay nag-ulat na ang preference fine-tuning ay nagpabuti ng katumpakan ng tugon ng 5% para sa mga kumplikadong query na wala sa pamamahagi.
“Nagsimula kaming subukan ang Preference Fine-Tuning gamit ang mga pinagkakatiwalaang kasosyo na nakakita ng mga magagandang resulta sa ngayon. Halimbawa, ang Rogo AI(opens in a new window) ay bumubuo ng AI assistant para sa mga financial analyst na naghahati-hati ng mga kumplikadong query sa mga sub-query.
Gamit ang kanilang benchmark na binuo ng dalubhasa, ang Rogo-Golden, nalaman nila na habang ang Supervised Fine-Tuning ay nahaharap sa mga hamon sa out-of-distribution na pagpapalawak ng query—gaya ng mga nawawalang sukatan tulad ng ARR para sa mga query tulad ng”gaano kabilis company X growing”—Preference Fine-Tuning ay niresolba ang mga isyung ito, na nagpabuti ng performance mula sa 75% na katumpakan sa base model hanggang sa higit sa 80%.”
Pagpapalawak ng Mga Opsyon sa SDK para sa Mga Developer
Upang suportahan ang mas malawak na hanay ng mga programming environment, ipinakilala rin ng OpenAI ang mga opisyal na SDK para sa Go at Java, sa tabi nitomga kasalukuyang library para sa Python, Node.js, at.NET. Pinapasimple ng mga SDK na ito ang pagsasama, na nagbibigay-daan sa mga developer na mag-deploy ng mga modelo ng AI sa scalable backend system o enterprise application.
Ang Go SDK ay idinisenyo para sa magaan at mahusay na server-side application, habang ang Java SDK ay tumutugon sa mga enterprise-grade na solusyon, na nag-aalok ng malakas na pagta-type at matatag na suporta para sa mga malalaking proyekto. Nagbibigay ang dokumentasyon ng OpenAI ng detalyadong gabay para sa paggamit ng mga bagong tool na ito.