GPT-4o: Model Terkini OpenAI Meningkatkan Interaksi AI Multimodal

OpenAI telah memperkenalkan model AI terbaharunya, GPT-4o, yang meningkatkan keupayaan pendahulunya dengan menyepadukan pengecaman suara ke dalam pemprosesan teks dan penglihatannya yang sudah mantap. Diumumkan semasa strim langsung pada hari Isnin, model itu diterangkan oleh OpenAI CTO Mira Murati sebagai kemajuan ketara dalam interaksi AI, menawarkan responsif masa nyata dan pengiktirafan emosi dalam komunikasi suara. Pelancaran akan berlaku secara berulang di seluruh rangkaian produk OpenAI, menyasarkan kedua-dua pembangun dan pengguna dalam beberapa minggu akan datang. GPT-4o (“o”untuk “omni”) direka bentuk untuk menerima sebarang gabungan input teks, audio dan imej serta menjana sebarang gabungan output teks, audio dan imej.

Interaksi Multimodal di Teras GPT-4o

Membina di atas asas yang ditetapkan oleh GPT-4, yang mahir memproses imej dan teks, GPT-4o memperkenalkan suara sebagai elemen baharu, menjadikan ia merupakan platform multimodal asli. Peningkatan ini bukan sahaja meningkatkan pengalaman pengguna dengan ChatGPT, bot sembang AI popular OpenAI, tetapi juga memperluaskan fungsinya.

Pengguna kini boleh berinteraksi dengan ChatGPT dengan cara yang lebih dinamik, mengganggu dan menerima respons dalam masa nyata, dengan model yang mampu mengesan nuansa dalam emosi pengguna dan bertindak balas dalam pelbagai nada emotif. Model ini boleh bertindak balas kepada input audio dalam masa seawal 232 milisaat, dengan purata masa tindak balas 320 milisaat, yang setanding dengan masa respons manusia dalam perbualan.

Fungsi Dipertingkatkan Merentas Platform

Penyepaduan keupayaan suara meningkatkan fungsi ChatGPT dengan ketara. Contohnya, apabila diberikan foto atau imej skrin desktop, ChatGPT kini boleh menjawab pertanyaan yang berkaitan dengan kandungan yang dipaparkan dengan pantas, seperti mengenal pasti spesifik kod perisian atau mengenali jenama dan objek.

Kemas kini adalah sebahagian daripada Strategi OpenAI yang lebih luas untuk menjadikan interaksi AI lebih intuitif dan kurang tertumpu pada antara muka pengguna asas. GPT-4o sepadan dengan prestasi GPT-4 Turbo pada teks dalam bahasa Inggeris dan kod, dan menunjukkan peningkatan ketara pada teks dalam bahasa bukan bahasa Inggeris. Ia juga jauh lebih pantas dan 50% lebih murah dalam API, terutamanya cemerlang dalam pemahaman penglihatan dan audio berbanding model sedia ada.

[kandungan terbenam]

Akses Lebih Luas dan Prestasi yang Dipertingkatkan

Selain keupayaannya yang dipertingkatkan, GPT-4o akan tersedia secara percuma kepada semua pengguna, dengan pengguna berbayar mendapat manfaat sehingga lima kali ganda had kapasiti. Model ini juga mempunyai kelajuan yang lebih baik, memastikan tindak balas yang lebih cepat dan interaksi yang lebih cekap. Ketua Pegawai Eksekutif OpenAI Sam Altman menekankan reka bentuk model itu bersifat multimodal, yang sejajar dengan visi syarikat untuk mencipta alat AI yang lebih semula jadi dan mudah diakses.

“Seperti yang diukur pada penanda aras tradisional, GPT-4o mencapai GPT-4 Turbo prestasi tahap pada teks, penaakulan dan kecerdasan pengekodan, sambil menetapkan tera air tinggi baharu pada keupayaan berbilang bahasa, audio dan penglihatan“, kata OpenAI

Penaakulan Dipertingkat

GPT-4o mencapai markah rekod baharu sebanyak 87.2% pada MMLU 5 pukulan (soalan pengetahuan am). (Nota: Llama3 400b sedang dalam latihan)

Prestasi Audio ASR

GPT-4o meningkatkan keupayaan pengecaman pertuturan dengan ketara berbanding Whisper-v3 merentas pelbagai bahasa, terutamanya bahasa yang mempunyai sumber yang lebih sedikit.

Prestasi terjemahan audio

GPT-4o menetapkan penanda aras baharu dalam prestasi terjemahan audio , mengatasi Whisper-v3 dalam penanda aras MLS.

Keputusan Penanda Aras M3Exam

Penanda aras M3Exam berfungsi sebagai penilaian berbilang bahasa dan visual, yang terdiri daripada soalan berbilang pilihan daripada ujian piawai pelbagai negara, yang mungkin termasuk angka dan rajah. GPT-4o mengatasi GPT-4 dalam penanda aras ini merentas semua bahasa. Keputusan penglihatan untuk bahasa Swahili dan Jawa ditinggalkan kerana terdapat lima atau kurang soalan penglihatan untuk bahasa ini.

Pemahaman Visi

GPT-4o mencapai prestasi terkini pada penanda aras persepsi visual.

Masa Strategik untuk Pelancaran

Masa pengumuman GPT-4o, sejurus sebelum Google I/O, persidangan utama Google, kelihatan strategik, meletakkan OpenAI untuk menarik perhatian dalam landskap AI yang kompetitif. Pelancaran ini mengikuti tempoh spekulasi dengan pelbagai ramalan tentang perkembangan baharu OpenAI, yang menekankan pengaruh berterusan syarikat dalam industri teknologi.

GPT-4o: Model Terkini OpenAI Meningkatkan Interaksi AI Multimodal

Published by All Things Windows on May 13, 2024

Interaksi Multimodal di Teras GPT-4o

Fungsi Dipertingkatkan Merentas Platform

Akses Lebih Luas dan Prestasi yang Dipertingkatkan

Penaakulan Dipertingkat

Prestasi Audio ASR

Prestasi terjemahan audio

Keputusan Penanda Aras M3Exam

Pemahaman Visi

Masa Strategik untuk Pelancaran

IT Info

Projek Stargate: Maksud Sokongan AI Trump untuk Perkongsian Microsoft-OpenAI

IT Info

Dayakan dan gunakan Kesan Studio pada Windows 11

IT Info

Microsoft Menyertai Gabungan Pembekal Awan Eropah CISPE Berikutan Penyelesaian Pertikaian Pelesenan

GPT-4o: Model Terkini OpenAI Meningkatkan Interaksi AI Multimodal

Published by All Things Windows on May 13, 2024

Interaksi Multimodal di Teras GPT-4o

Fungsi Dipertingkatkan Merentas Platform

Akses Lebih Luas dan Prestasi yang Dipertingkatkan

Penaakulan Dipertingkat

Prestasi Audio ASR

Prestasi terjemahan audio

Keputusan Penanda Aras M3Exam

Pemahaman Visi

Masa Strategik untuk Pelancaran

Related Posts

IT Info

Projek Stargate: Maksud Sokongan AI Trump untuk Perkongsian Microsoft-OpenAI

IT Info

Dayakan dan gunakan Kesan Studio pada Windows 11

IT Info

Microsoft Menyertai Gabungan Pembekal Awan Eropah CISPE Berikutan Penyelesaian Pertikaian Pelesenan