Το Alibaba επιταχύνει τον παγκόσμιο αγώνα AI με το WebSailor, έναν νέο πράκτορα ιστού ανοιχτού κώδικα που κυκλοφόρησε στις 4 Ιουλίου. Αναπτύχθηκε από το εργαστήριο Tongyi, ο Websailor έχει σχεδιαστεί για να κυριαρχήσει πολύ περίπλοκα καθήκοντα που αναζητούν πληροφορίες που διασχίζουν τα περισσότερα τρέχοντα μοντέλα. Η εταιρεία ισχυρίζεται ότι ο πράκτοράς της κλείνει το χάσμα απόδοσης με κορυφαία ιδιόκτητα συστήματα από ανταγωνιστές όπως το OpenAI.
Χρησιμοποιώντας μια νέα μεθοδολογία κατάρτισης που επικεντρώνεται σε προβλήματα υψηλής αβεβαιότητας, ο Websailor μπορεί να πλοηγηθεί σε τεράστια ψηφιακά τοπία για να βρει απαντήσεις, ένα βασικό βήμα προς την επίτευξη του”superhuman”συλλογισμού. Αυτή η στρατηγική απελευθέρωση, διαθέσιμο στο github , στοχεύει στη θέση του alibaba στο πιο έντονα ανταγωνιστικό ecosystem ecosystem. Λογική
Στο επίκεντρο του Websailor είναι μια εξελιγμένη στρατηγική κατάρτισης που έχει σχεδιαστεί για να διδάξει μοντέλα πώς να χειριστεί την ασάφεια. Η προσέγγιση κινείται πέρα από την απλή απάντηση ερωτήσεων, εστιάζοντας αντ’αυτού σε αυτό που οι ερευνητές ονομάζουν προβλήματα”επιπέδου 3″: καθήκοντα χωρίς σαφή διαδρομή λύσης που απαιτούν βαθιά εξερεύνηση. Src=”Δεδομένα: εικόνα/svg+xml; nitro-empty-id=mty0mjoxndy2-1, base64, phn2zyb2awv3qm94psiwidagmty1niaxntey IIB3AWR0AD0IMTY1NIIGAGVPZ2H0PSNTEYIIB4BWXUCZ0IAHR0CDOVL3D3DY53MY5VCMCVMJAWMC9ZDMCIPJWVC3ZNPG==”>
Για να δημιουργήσουν αυτές τις προκλήσεις, η ομάδα δημιούργησε Sailorfog-qa, ένας αγωγός σύνθεσης δεδομένων . Δημιουργεί σύνθετα γραφήματα γνώσεων από ιστοσελίδες πραγματικού κόσμου και στη συνέχεια σκόπιμα καλύπτει πληροφορίες-όπως η μετατροπή των ακριβών ημερομηνιών σε ασαφείς περιόδους-για να αναγκάσει τον πράκτορα να λογοδοτήσει και να συνδέσει τα διαφορετικά γεγονότα.”Οι υπερκείμενες ανθρώπινες γνωστικές περιορισμοί αντιπροσωπεύουν ένα κρίσιμο σύνορο στην εκπαίδευση LLM”. Η ομάδα αποφεύγει επίσης να μιμείται άμεσα την λέξη των μοντέλων των εκπαιδευτικών. Αντ’αυτού, ανακατασκευάζουν τις συνοπτικές, προσανατολισμένες στη δράση σκέψεις για τα δεδομένα εκπαίδευσης, αποτρέποντας την”στυλιστική μόλυνση”. Ξεκινά με μια απόρριψη δειγματοληψίας λεπτότητας ρύθμισης (RFT)”κρύο εκκίνηση”για να δημιουργήσει θεμελιώδεις δεξιότητες. Αυτό ακολουθείται από την εκμάθηση ενίσχυσης χρησιμοποιώντας έναν προσαρμοσμένο αλγόριθμο, την εκμετάλλευση της βελτιστοποίησης της πολιτικής δειγματοληψίας (DUPO), για να βελτιώσει αποτελεσματικά τις διερευνητικές στρατηγικές του πράκτορα ως ένα νέο state-of-the-the-art-source agent. Σύμφωνα με τα δημοσιευμένα σημεία αναφοράς, η έκδοση 72B του μοντέλου επιτυγχάνει κορυφαίες βαθμολογίες στις δύσκολες δοκιμές Browsecomp τόσο στην αγγλική όσο και στην κινεζική. Στο αγγλικό τεστ, σημείωσε 12.0. Οι ερευνητές ισχυρίζονται ότι”ο Websailor ξεπερνά σημαντικά όλους τους πράκτορες ανοικτού κώδικα σε πολύπλοκα καθήκοντα αναζήτησης πληροφοριών, που ταιριάζουν σημαντικά τα αποτελέσματα των αποτελεσμάτων και το κλείσιμο του χάσματος των ικανοτήτων”. Το έγγραφο υπογραμμίζει ότι το μέτριο μοντέλο WebSailor-7B ξεπερνά τους παράγοντες που βασίζονται σε πολύ μεγαλύτερα μοντέλα 32B, υπογραμμίζοντας την αποτελεσματικότητα του νέου παραδείγματος. Παρά το γεγονός ότι εκπαιδεύεται σε εξαιρετικά δύσκολα προβλήματα, ο Websailor ξεπερνά άλλες μεθόδους στο απλούστερο σημείο αναφοράς SimpleQA, αποδεικνύοντας ότι οι προχωρημένες δεξιότητές του είναι ευπροσάρμοστες και δεν συμβιβάζουν την απόδοση των βασικών καθηκόντων. Προσγειώνεται μέσα σε έναν άγριο”πόλεμο εκατό μοντέλων”στην Κίνα, όπου οι τεχνολογικοί γίγαντες είναι επιθετικά ανοιχτά το έργο τους για να συλλάβουν το μερίδιο αγοράς. Η κίνηση θέτει στρατηγικά τον Alibaba ως ηγέτη στην προηγμένη ανάπτυξη AI.
Η ανταγωνιστική ένταση επισημάνθηκε πρόσφατα όταν μια ερευνητική ομάδα ισχυρίστηκε ότι το νέο μοντέλο Pangu του Huawei ήταν αντίγραφο του μοντέλου QWEN της Alibaba. Το εργαστήριο της Huawei εξέδωσε σταθερή άρνηση, δηλώνοντας ότι το μοντέλο του ήταν”… δεν βασίζεται στην αυξημένη εκπαίδευση των μοντέλων των άλλων κατασκευαστών…”και αναπτύχθηκε ανεξάρτητα. Αυτή η ώθηση τροφοδοτείται από ευρύτερες γεωπολιτικές πιέσεις, καθώς οι κυρώσεις των Η.Π.Α. περιορίζουν την πρόσβαση στο υλικό κορυφαίων επιπέδων και αναγκάζουν τις κινεζικές επιχειρήσεις να κατασκευάσουν αυτοσυντηρούμενα οικοσυστήματα. Οι μεγάλες εταιρικές σχέσεις αντιμετωπίζουν διεθνή έλεγχο, όπως φαίνεται όταν η πιθανή συμφωνία AI της Apple με την Alibaba επέστησε αντιδράσεις στην Ουάσινγκτον σχετικά με τις ανησυχίες της εθνικής ασφάλειας. Αυτό αναγκάζει τους κινέζους τεχνολογικούς γίγαντες να περιηγηθούν σε ένα πολύπλοκο τοπίο εγχώριου ανταγωνισμού και παγκόσμιας πολιτικής.