Η γαλλική AI Startup Mistral ξεκίνησε την πρώτη της ανοιχτού κώδικα μοντέλα ήχου AI, Voxtral, την Τρίτη, αμφισβητώντας άμεσα την κυριαρχία των ιδιόκτητων συστημάτων από την Google και την OpenAI. Η εταιρεία που εδρεύει στο Παρίσι τοποθετεί τη νέα της οικογένεια μοντέλων ως υψηλής απόδοσης, οικονομικά αποδοτική εναλλακτική λύση για τους προγραμματιστές. Κυκλοφόρησε με άδεια χρήσης Apache 2.0, η Voxtral στοχεύει να εκδημοκρατίσει την πρόσβαση στη φωνητική νοημοσύνη που είναι έτοιμη για παραγωγή με προηγμένη μεταγραφή και πολύγλωσσο υποστήριξη. Παρέχει μια προσέγγιση ανοιχτού κώδικα ενάντια στους περιφραγμένους κήπους της βιομηχανίας. Twith Voxtral, οι προγραμματιστές δεν χρειάζεται πλέον να επιλέξουν ανάμεσα σε ένα φτηνό αλλά λανθασμένο ανοιχτό σύστημα ή ένα λειτουργικό κλειστό. Src=”Δεδομένα: Εικόνα/SVG+XML; Nitro-Empty-ID=MTY0MZO3MDC=-1, BASE64, PHN2ZYB2AWV3QM94PSIWIDAGNZUWIDQZ Ocigd2lkdgg9ijc1mcigagvpz2h0psi0mzgiihhtbg5zpsjodhrwoi8vd3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>
Το Voxtral είναι η απάντηση του Mistral στην ιδιόκτητη φωνή AI
Το Mistral τοποθετεί το Voxtral ως λύση σε ένα μακροχρόνιο δίλημμα προγραμματιστών. Για χρόνια, οι ομάδες έπρεπε να επιλέξουν μεταξύ φτηνών συστημάτων ομιλίας ανοιχτού κώδικα που συχνά είχαν υψηλά ποσοστά σφάλματος και περιορισμένη κατανόηση ή ισχυρά ιδιόκτητα API που ήρθαν με υψηλή τιμή και λιγότερο έλεγχο ανάπτυξης. Το Voxtral στοχεύει να γεφυρώσει αυτό το κενό, παρέχοντας αυτό που η Mistral ονομάζει”πραγματικά χρήσιμη λογική νοημοσύνη στην παραγωγή”με επιτρεπτή άδεια Apache 2.0. Η ναυαρχίδα είναι το Voxtral Small, ένα μοντέλο παραμέτρων 24 δισεκατομμυρίων που έχει σχεδιαστεί για εφαρμογές κλίμακας παραγωγής. Για τη χρήση ή την τοπική χρήση, υπάρχει Voxtral Mini, μια πιο συμπαγή παραλλαγή παραμέτρων 3 δισεκατομμυρίων. Τέλος, για καθήκοντα ευαίσθητου στο κόστος, μεγάλου όγκου, το Mistral προσφέρει το Voxtral Mini Transcribe, μια εξαιρετικά βελτιστοποιημένη και απογυμνωμένη έκδοση που επικεντρώνεται αποκλειστικά στη μεταγραφή. Τόσο τα μικρά όσο και τα μίνι μοντέλα είναι διαθέσιμα για λήψη στο Face Hugging Για την ενσωμάτωση με βάση το σύννεφο, τα μοντέλα είναι προσβάσιμα μέσω μιας απλής κλήσης API, με τιμολόγηση ξεκινώντας από μόλις $ 0,001 ανά λεπτό. Η εταιρεία σχεδιάζει επίσης να αναπτύξει το voxtral στη λειτουργία φωνής του chat chatbot. Αυτή η ραχοκοκαλιά LLM του δίνει μια βαθιά σημασιολογική κατανόηση του περιεχομένου ήχου. Με ένα παράθυρο περιβάλλοντος 32.000 token, μπορεί να επεξεργαστεί αρχεία ήχου έως και 30 λεπτά για μεταγραφή και έως και 40 λεπτά για την κατανόηση των εργασιών, όπως η θέσπιση σύνθετων ερωτήσεων σχετικά με το περιεχόμενο. Το Voxtral μπορεί να εκτελέσει εγγενή Q & A και συνοπτική συνοπτική συνοπτική θέση και υποστηρίζει την κλιματική λειτουργία απευθείας από τις φωνητικές εντολές, μετατρέποντας την προφορική πρόθεση σε εντολές συστήματος που μπορεί να ενεργοποιηθεί. Διαθέτει επίσης την αυτόματη ανίχνευση γλώσσας, με την υπερσύνδεση της απόδοσης σε ευρέως χρησιμοποιούμενες γλώσσες όπως η αγγλική, η ισπανική, η γαλλική, η γερμανική και η Χίντι. Η εταιρεία δήλωσε:”Απελευθερώνουμε τα μοντέλα Voxtral για να επιταχύνουμε αυτό το μέλλον. Ο έντονος ανταγωνισμός, όπου οι τεχνολογικοί γίγαντες και οι ευέλικτες νεοσύστατες επιχειρήσεις αγωνίζονται για κυριαρχία στο μέλλον της αλληλεπίδρασης φωνής. Για να υποστηρίξει τους ισχυρισμούς της, το Mistral κυκλοφόρησε επιτακτική θέση αναφοράς των δεδομένων Voxtral ως ηγέτη τόσο στην απόδοση όσο και στην αποδοτικότητα κόστους. Στο σημείο αναφοράς Fleurs, το Voxtral Small και το Mini Transcribe κάθονται στο βέλτιστο άκρο της καμπύλης τιμής-απόδοσης, παρέχοντας χαμηλότερα ποσοστά σφάλματος από τις δυνατότητες Google 2,5 Flash και τις ανταγωνιστές GPT-4O του OpenAi In European Mini, Ενώ ο γραμματέας του Elevenlabs δημοσιεύει ένα οριακά χαμηλότερο ποσοστό σφάλματος σε ορισμένες μακροχρόνιες αγγλικές εργασίες, το κάνει περισσότερο από το διπλάσιο της τιμής των μικρών, ενισχύοντας την πρόταση αξίας του Mistral. Src=”Δεδομένα: εικόνα/svg+xml; nitro-empty-id=mty0nto3ndq=-1, base64, phn2zyb2awv3qm94psiwidagoda3idq1ny Igd2lkdgg9ijgwnyigagvpz2h0psi0ntciihhtbg5zpsjodhrwoi8vd3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>
Αυτή η εκτόξευση αμφισβητεί άμεσα τις συνεχιζόμενες εξελίξεις από το Big Tech. Τους τελευταίους μήνες, η OpenAI επέκτεινε τη λειτουργία της Advanced Voice στον ιστό, ενώ ο Anthropic έβαλε μια λειτουργία συνομιλίας για το CLAUDE AI. Η Amazon έκανε επίσης μια σημαντική κίνηση τον Απρίλιο με το εκφραστικό μοντέλο Nova Sonic σε πραγματικό χρόνο, το οποίο έχει ήδη ενσωματωθεί στον βοηθό της Alexa+. Καθώς οι συσκευές του Amazon οδηγούν τον Panos Panay, υποσχέθηκε:”Όταν χρησιμοποιείτε την Alexa+, θα το αισθανθείτε.”
Η καινοτομία δεν περιορίζεται στους Γίγαντες. Η αγορά διαμορφώνεται επίσης από εξειδικευμένες νεοσύστατες επιχειρήσεις που διερευνούν διαφορετικές θέσεις. Τον Μάιο, η σταθερότητα AI συνεργάστηκε με το ARM για να απελευθερώσει ένα μοντέλο ήχου on-device, χωρίς δικαιώματα, αντιμετωπίζοντας τις ανησυχίες της πνευματικής ιδιοκτησίας χρησιμοποιώντας δεδομένα κατάρτισης με ηθικά προέλευσης. Ο Διευθύνων Σύμβουλος Prem Akkaraju υπογράμμισε την εστίαση στην αποτελεσματικότητα, δηλώνοντας:”Μετακινήσαμε από λίγα λεπτά σε λίγα δευτερόλεπτα για να δημιουργήσουμε τον ήχο εξ ολοκλήρου στο Arm CPU στο smartphone.”κοιλάδα. Αυτή η φιλοσοφική αναζήτηση για συναισθηματική αυθεντικότητα καταγράφηκε από τον Anjney Midha του Andreessen Horowitz, ο οποίος σημείωσε:”Η συναισθηματική επιπεδότητα του AI Audio έχει εξαντληθεί και αφύσικες, αλλά αν αφαιρέσετε την οπτική οθόνη από το AR-SEMORE και το Voxtral είναι απλά μια τεχνική εμπειρία που δεν είναι μια τεχνική εμπειρία. Είναι μια στρατηγική κίνηση στον κλιμάκωση του πολέμου AI Talent. Η μάχη για τα κορυφαία μυαλά έχει αναγκάσει τις εταιρείες να χτίσουν, να αγοράσουν ή να βυθιστούν. Η πρόσφατη εξαγορά της Meta για το Voice AI Startup Playai για ένα αναφερόμενο 45 εκατομμύρια δολάρια είναι ένα πρωταρχικό παράδειγμα αυτής της τάσης. Η εταιρεία έχει ήδη ανακοινώσει σχέδια για μελλοντικές ενημερώσεις, συμπεριλαμβανομένης της κατάτμησης των ηχείων, της ανίχνευσης συναισθημάτων και των χρονικών σήμανσης σε επίπεδο λέξεων. Προσφέροντας μια ισχυρή, ανοιχτή και προσιτή εναλλακτική λύση, το Mistral στοιχηματίζει ότι μπορεί να χαράξει μια σημαντική θέση στο φωνητικό πρώτο μέλλον.