Una nuova razza di startup della voce AI sta facendo ondate e il sesamo AI è proprio nel mezzo. Co-fondato da Brendan Iribe di Oculus e Ankit Kumar di Ubiquity6, la società sta attualmente negoziando un round di finanziamento superiore a $ 200 milioni, con Sequoia Capital e Spark Capital
Come spiegato nella pubblicazione ufficiale di ricerca di Sesame, “attraversa Voice”, il modello sposta dinamicamente la sua consegna in base a segnali contestuali. Ciò consente all’intelligenza artificiale di rispondere in modi che si sentano più emotivamente autentici piuttosto che meccanicamente prescritti.
modello open source, piani hardware e una demo di abbracci
sesame ha rilasciato il suo Sotto la licenza permissiva Apache 2.0, aprendo la porta agli sviluppatori per costruire su di essa con restrizioni minime. Il modello di base di parametri 1B può anche essere testato direttamente tramite una demo ospitata su abbraccio faccia .
L’architettura si basa sulla quantizzazione del vettore residuo (RVQ), una tecnica che si facevo in modo che le sequenze di token in token in token in token taken fossero in token. CSM elabora questi insieme a dati testuali, rendendolo in grado di rispondere con un discorso contestualmente consapevole e sintonizzato emotivamente.
Sebbene attualmente evita la dipendenza da grandi modelli di lingua pretrattata, il sesamo ha delineato piani per integrare tali sistemi e espandere il supporto linguistico per oltre pesi. A differenza delle cuffie visivamente immersive, il prodotto è focalizzato sull’audio e offre un’interazione per tutto il giorno con il suo assistente di intelligenza artificiale.
Anjney Midha, socio generale di Andreessen Horowitz, uno dei primi investitori di Sesame, ha scritto in un post post
Il tono per gli investitori è chiaro: costruire il sistema operativo per il calcolo della prima fila. Invece di sfidare Openai e Google su velocità o scala, il sesamo si sta appoggiando all’espressività, alla sfumatura e alla presenza persistente. È meno Alexa, più compagno ambientale.
Contesto del settore: la voce espressiva AI riscalda
sesamo non funziona nel vuoto. Big Tech si sta convergendo rapidamente su una voce espressiva. La modalità vocale avanzata di Openai, lanciata sul Web a fine marzo, ha introdotto una migliore riduzione di turni e latenza.
Evita di interrompere gli utenti durante le pause e ha iniziato a modificare i tratti della personalità per creare un’esperienza più interattiva. Tale funzione rimane recintata dietro livelli premium, sebbene OpenAI abbia ampliato l’accesso nel febbraio 2025 agli utenti gratuiti con limitazioni.
Il modello CHIRP 3 di Google, integrato in Vertex AI, offre strumenti vocali personalizzati istantanei e controlli di toni espressivi su 31 lingue. Sottolinea il marchio personale, il supporto del call center e la localizzazione, avvicinati che contrastano con l’attenzione di Sesame sull’autenticità emotiva. CHIRP 3 evidenzia anche le sfide etiche, in particolare sulla clonazione vocale e il consenso dei dati, che potrebbero emergere anche per il sesamo.
Copilot Assistant di Microsoft, che ora presenta un’interazione vocale liberamente disponibile, completa un paesaggio competitivo in rapida evoluzione. Nel frattempo, altri progetti di intelligenza artificiale-come la modalità Grok”Unhinged”dalla XAI di Elon Musk-esplorano il discorso espressivo in direzioni più estreme.
Intelligenza emotiva, rischio e attrito nel mondo reale
Man mano che la tecnologia migliora, quindi fanno preoccupazioni sull’ingegno e il uso improprio. L’assistente di Sesame non impersona le persone reali, ma il suo realismo confonde le linee nell’interazione umana-macchina.
Questo realismo pone anche compromessi di progettazione e prestazioni. La gestione di modelli emotivamente reattivi in tempo reale, in particolare sui dispositivi indossabili, presenta costi di calcolo elevati. L’elaborazione del dialogo naturale on-Device richiede chip efficiente al potere e architettura a bassa latenza: aree che il sesamo non ha ancora dettagliato pubblicamente.
L’enfasi dell’azienda sul realismo potrebbe mettere a dura prova la durata della batteria o i limiti termici nei fattori della forma dell’hardware come gli occhiali.
Nonostante quegli ostacoli, l’interesse attorno al Sesame sta crescendo. Tra le versioni open-source, l’integrazione dell’hardware ambiziosa e una valutazione che attraversano il segno da miliardi di dollari, l’avvio sta rivendicando un reclamo non solo su come suona l’IA, ma su come ci si sente a parlare con uno.