Elon Musk mesterséges intelligenciával foglalkozó vállalkozása, az xAI előrelépéseket tesz Grok chatbotjának multimodális képességekkel való továbbfejlesztésében. A legújabb fejlesztői dokumentumok szerint a felhasználók hamarosan képeket tölthetnek fel a Grokra, és szöveges válaszokat kaphatnak..
A fejlesztői dokumentumok tartalmaznak egy minta Python-szkriptet, amely felvázolja az integrációs folyamatot. Ez a szkript bemutatja, hogyan használhatják a fejlesztők az xAI szoftverfejlesztői készletet (SDK) szöveg-és képbeviteli adatok feldolgozására. A szkript részletezi a képfájl beolvasásának, a szöveges prompt beállításának és az xAI SDK használatával válasz generálásának lépéseit, jelezve a kifinomultabb interakciós módszerek felé való elmozdulást.
Evolúció és korábbi verzió
strong>
A Grok először 2023 novemberében jelent meg, és az X Premium Plus szolgáltatás előfizetői számára érhető el. A legújabb iteráció, a Grok 1.5 márciusban jelent meg, javított érvelési képességekkel. A modellt 2023 harmadik negyedévéig az internetről származó szöveges adatok sokféle skáláján képezik, amelyeket humán lektorok által összeállított adatkészletek egészítenek ki. Nevezetesen, bár a Grok-1-et nem képezték ki az X (korábban Twitter) adataira, valós idejű hozzáférése van a platform nyilvános bejegyzéseihez.
Versenyképes pozíció és jövőbeli fejlemények
Elon Musk alapította márciusban 2023-ban az xAI egy viszonylag új szereplő az AI-szektorban, olyan bevált entitásokkal versenyezve, mint az OpenAI ChatGPT. Újonc státusza ellenére az xAI azt állítja, hogy a Grok 1.5 csökkenti a teljesítménybeli különbségeket az OpenAI GPT-4-ével szemben a különböző benchmarkok között, beleértve az egyetemi versenyproblémákat is. Mindazonáltal fontos figyelembe venni, hogy a nagy nyelvi modellek referenciaértékei gyakran szembesülnek azzal a vizsgálattal, hogy esetlegesen belefoglalják-e a tesztadatokat a képzési készleteikbe, ami befolyásolhatja a teljesítményt.
Multimodális modellek különböző tartományokban >
Egy múlt havi blogbejegyzés jelezte, hogy a Grok-1.5V „multimodális modelleket” kínál majd számos területen.”A fejlesztői dokumentumok legutóbbi frissítése egy új modell kiadása felé tett előrelépést sugallja. Ez a modell 2023 harmadik negyedévéig számos nyilvánosan elérhető internetes forrásból származó szöveges adatra és humán szakértők által felülvizsgált adatkészletekre épül. valós idejű tudással büszkélkedhet a világról, beleértve az X-ről szóló bejegyzéseket is.
A multimodális társalgási csevegőbotok fejlesztése jelentős előrelépésnek számít a mesterséges intelligencia technológia terén. A Google I/O legújabb bejelentései és az OpenAI megjelenése A GPT-4o, Grok korábbi multimodális képességeinek hiánya versenyhátrányba hozta. A folyamatban lévő frissítések célja, hogy áthidalják ezt a hiányt, és javítsák a Grok funkcionalitását.