Alibaban Qwen-tutkimusryhmä on esitellyt QVQ-72B:n, avoimen lähdekoodin multimodaalisen tekoälymallin, joka on suunniteltu yhdistämään visuaalinen ja tekstillinen päättely. Sen kyky käsitellä kuvia ja tekstiä vaiheittain, malli tarjoaa uudenlaisen lähestymistavan ongelmanratkaisuun, joka haastaa patentoitujen järjestelmien, kuten OpenAI:n GPT-4:n, hallitsevuuden.
Alibaban Qwen-tiimi kuvailee QVQ-72B:tä askeleena kohti heidän pitkän aikavälin tavoitteena on luoda kattavampi tekoäly, joka pystyy vastaamaan tieteellisiin ja analyyttisiin haasteisiin.
Asettamalla mallin avoimesti saataville Qwen-lisenssin alaisena Alibaba pyrkii edistämään tekoälyyhteisön yhteistyötä ja samalla edistämään yleistä tekoälyä (AGI). QVQ-72B on sekä tutkimustyökalu että käytännön sovellus, ja se edustaa uutta virstanpylvästä multimodaalisen tekoälyn kehityksessä.
Visuaalinen ja tekstillinen päättely
Multimodaaliset tekoälymallit, kuten QVQ-72B, on suunniteltu analysoimaan ja integroimaan useita syöttötyyppejä – visuaalista ja tekstillistä – yhtenäiseksi päättelyprosessiksi. Tämä ominaisuus on erityisen arvokas tehtävissä, jotka vaativat tietojen tulkintaa eri muodoissa, kuten tieteellinen tutkimus, koulutus ja edistynyt analytiikka.
QVQ-72B on ytimenään Qwen2-VL-72B, Alibaban aiempi visiokielimalli. Se esittelee edistyneitä päättelyominaisuuksia, joiden avulla se voi käsitellä kuvia ja niihin liittyviä tekstikehotteita jäsennellyllä, loogisella lähestymistavalla. Toisin kuin monet suljetun lähdekoodin järjestelmät, QVQ-72B on suunniteltu läpinäkyväksi ja helposti saavutettavaksi, ja se tarjoaa lähdekoodinsa ja mallinsa painotukset kehittäjille ja tutkijoille.
“Kuvittele tekoäly, joka voi tarkastella monimutkaista fysiikan ongelmaa, ja perustelee menetelmällisesti ratkaisua mestarifyysikon luottamuksella”, Qwen-tiimi kuvailee tavoitteensa uudella mallilla loistaa aloilla, joilla päättely ja multimodaalinen ymmärtäminen. ovat kriittisiä.
Suorituskyky ja vertailuarvot
Mallin suorituskykyä arvioitiin käyttämällä useita tiukkoja vertailuarvoja, joista jokainen testasi sen multimodaalisen päättelykyvyn eri näkökohtia:
MMMU (Multimodal Multidisciplinary University)-benchmarkissa, jossa arvioitiin sen kykyä suoriutua yliopistotasolla yhdistämällä teksti-ja kuvapohjainen päättely, QVQ-72B saavutti vaikuttavan pistemäärän 70,3, ylittäen edeltäjänsä Qwen2-VL-72B-Instructin.
MathVista-benchmark testasi mallin kykyä ratkaista matemaattisia ongelmia kaavioiden ja visuaalisten apuvälineiden avulla ja korosti sen analyyttisiä vahvuuksia. Vastaavasti todellisista matematiikan kilpailuista johdettu MathVision arvioi kykynsä päättelyyn eri matemaattisilla aloilla.
Lopuksi OlympiadBench-benchmark haastoi QVQ-72B:n kaksikielisillä ongelmilla kansainvälisistä matematiikan ja fysiikan kilpailuista. Mallin tarkkuus oli verrattavissa patentoituihin järjestelmiin, kuten OpenAI:n GPT-4:ään, mikä kavensi suorituskyvyn eroa avoimen ja suljetun lähdekoodin tekoälyn välillä.
Lähde: Qwen
Näistä saavutuksista huolimatta rajoituksia on edelleen. Qwen-tiimi totesi, että rekursiiviset päättelysilmukat ja hallusinaatiot monimutkaisen visuaalisen analyysin aikana ovat edelleen haasteita, joihin on puututtava.
Käytännön sovellukset ja kehittäjätyökalut
QVQ-72B ei ole vain tutkimustuote – se on kehittäjien käytettävissä oleva työkalu, jota isännöi halaavat kasvot, joiden avulla käyttäjät voivat kokeilla sen ominaisuuksia reaaliajassa. Kehittäjät voivat myös ottaa QVQ-72B:n käyttöön paikallisesti käyttämällä kehyksiä, kuten macOS-ympäristöihin optimoitua MLX:tä ja Hugging Face Transformers-muuntajia, mikä tekee mallista monipuolisen eri alustoilla.
Testasimme QVQ-72B:n esikatselun Hugging Facessa yksinkertaisella kuvalla. kahdestatoista lyijykynästä nähdäksesi, kuinka se lähestyy tehtävää ja tunnistaako se pinotut kynät oikein. Valitettavasti se epäonnistui tässä yksinkertaisessa tehtävässä, sillä tuloksena oli vain kahdeksan.
Vertailuna OpenAI:n GPT-4o oikea vastaus suoraan:
Haasteisiin vastaaminen ja tulevaisuuden ohjeet
Vaikka QVQ-72B edustaa edistystä, se korostaa myös multimodaalisen tekoälyn edistymisen monimutkaisuutta. Sellaiset ongelmat kuin kielenvaihto, hallusinaatiot ja rekursiiviset päättelysilmukat kuvaavat vankkojen ja luotettavien järjestelmien kehittämisen haasteita. Erillisten objektien tunnistaminen, mikä on avain oikean laskennan ja myöhemmän päättelyn kannalta, on edelleen mallin ongelma.
Qwenin pitkän aikavälin tavoite ulottuu kuitenkin QVQ-72B:tä pidemmälle. Tiimi suunnittelee yhtenäistä mallia, joka integroi lisämodaliteetit – yhdistämällä tekstin, näön, äänen ja muut – yleisen tekoälyn lähestymiseksi. He korostavat, että QVQ-72B on yksi askel kohti tätä visiota ja tarjoaa avoimen alustan lisätutkimukselle ja innovaatioille.