Une nouvelle race de startup de voix AI fait des vagues, et Sesame Ai est en plein milieu. Co-fondé par Brendan Iribe d’Oculus et Ankit Kumar d’Ubiquity6, la société négocie actuellement un tour de financement dépassant 200 millions de dollars, avec Sequoia Capital et Spark Capital Il pourrait pusher à la tête de l’effort. Billion-annul la société comme l’un des joueurs les plus regardés dans l’IA conversationnelle

Qu’est-ce qui motive cette augmentation de l’intérêt? La réponse de Sesame n’est pas plus de vitesse ou plus. It’s realism—an emotionally aware AI that doesn’t just sound smooth, but sounds alive.

Flawed by Design: A Voice That Stumbles, Pauses, and Feels REAL

Le modèle de parole conversationnel (CSM) de Sesame se trouve au cœur de son produit. Propulant des assistants numériques nommés Maya et Miles, le modèle embrasse les imperfections comme les hésitations, les bégaides, les changements tonaux et la rythme incohérent. Ce n’est pas un bug; C’est intentionnel. Les utilisateurs ont décrit leur expérience avec l’assistant vocal comme «étrangement à consonance humaine» et même «inconfortable».

L’assistant n’imite pas seulement le ton. Il interprète des signaux émotionnels dans la voix de l’utilisateur, se transformant à un ton plus lent et plus apaisant lorsque le stress est détecté ou devenant ludique lors des interactions créatives. L’assistant peut jouer un rôle, s’adapter aux invites de caractère et changer de comportement en fonction du contexte. Il est conçu pour réagir en temps réel à la forme et au rythme d’une conversation, pas simplement les mots prononcés.

comme expliqué dans la publication de recherche officielle de Sesame, “déplace dynamiquement sa livraison en fonction des signaux contextuels. Cela permet à l’IA de répondre de manière à se sentir plus émotionnellement authentique plutôt que pré-scrit mécaniquement.

modèle open source, plans matériels et une démo de visage étreint

sésame a publié sa csM-1 Model GitHub Sous la licence APACHE 2.0 permissive, ouvrant la porte aux développeurs pour y construire avec un minimum de restrictions. Le modèle de base de paramètres 1B peut également être testé directement via une démonstration hébergée sur Hugging Face .

L’architecture relie sur la quantification de vecteur résiduel (RVQ), une technique qui compresse l’audio apprenne dans l’efficient de séquences. CSM traite-t-il parallèlement aux données textuelles, ce qui le rend capable de répondre avec une parole contextuellement consciente et émotionnellement réglée.

Bien qu’elle évite actuellement la dépendance des grands modèles de langage pré-dû, le sésame a décrit les plans pour intégrer ces systèmes et développer le support linguistique à plus de 20 langages dans les futures itérations.

En parallèle, le Sesame est en train de développer des yeux légers légers conçus pour le quotidien. Contrairement aux casques visuellement immersifs, le produit se concentre sur l’audio et offre une interaction toute la journée avec son assistant AI. 

Anjney Midha, partenaire général chez Andreessen Horowitz, l’un des premiers investisseurs de Sesame, a écrit dans un Blog Blog Ce n’est pas en février:”Sesame est construit autour du simple, mais non-obvial, l’idée que le Sesame n’est pas construit autour du simple, mais non-obvial, l’idée que le Sesame n’est pas construit autour du simple, mais non-obvial, l’idée qui n’est pas en février:”Sesame est construit autour du simple, mais non-obvial, l’idée qui n’est pas en février:”Sesame est construit autour du simple, mais non-Obvious Écrans des lunettes AR-c’est dans l’audio. Le tour de financement n’attire pas seulement Sequoia, Spark et Andreessen Horowitz. Il compte également les partenaires Matrix parmi ses bailleurs de fonds. Le leadership de l’entreprise combine l’expérience d’Iribe dans les plateformes matérielles comme Oculus avec les antécédents de Kumar dans l’informatique spatiale et l’architecture communautaire de Discord-donnant à la profondeur technique et à l’intuition du produit réel.

Le terrain aux investisseurs est clair: construire le système opérationnel pour le calcul de la voix. Plutôt que de défier Openai et Google sur la vitesse ou l’échelle, Sesame se penche sur l’expressivité, la nuance et la présence persistante. C’est moins Alexa, plus ambiant compagnon.

Contexte de l’industrie: la voix expressive AI se réchauffe

sésame ne fonctionne pas dans le vide. Big Tech converge rapidement sur une voix expressive. Le mode vocal avancé d’Openai, déployé sur le Web fin mars, a introduit une meilleure prise de virage et des réductions de latence.

Il évite d’interrompre les utilisateurs pendant les pauses et a commencé à peaufiner les traits de personnalité pour créer une expérience plus interactive. Cette fonctionnalité reste déclenchée derrière des niveaux premium, bien qu’Openai a élargi l’accès en février 2025 aux utilisateurs gratuits avec des limitations.

Le modèle Chirp 3 de Google, intégré à Vertex AI, propose des outils vocaux personnalisés instantanés et des contrôles de tonalité expressifs sur 31 langues. Il met l’accent sur l’image de marque personnelle, le soutien du centre d’appels et la localisation-les rapports qui contrastent avec la concentration de Sesame sur l’authenticité émotionnelle. Chirp 3 met également en évidence les défis éthiques, en particulier autour du clonage vocal et du consentement des données, qui pourrait également faire surface pour le sésame.

L’assistant de copilote de Microsoft, qui dispose désormais d’une interaction vocale disponible libre, complète un paysage concurrentiel à évolution rapide. Pendant ce temps, d’autres projets d’IA-comme le mode Grok «déchaîné» à partir du XAI d’Elon Musk-explorent la parole expressive dans des directions plus extrêmes.

L’intelligence émotionnelle, le risque et la friction réelle

à mesure que la technologie s’améliore, il en va de même pour les préoccupations concernant la tromperie et la désinvolture. L’assistant de Sesame ne se fait pas passer pour de vraies personnes, mais son réalisme brouille les lignes dans l’interaction humaine-machine. 

Ce réalisme pose également des compromis de conception et de performance. La gestion de modèles émotionnellement sensibles en temps réel, en particulier sur les appareils portables, est livré avec des coûts de calcul élevés. Le traitement du dialogue naturel sur l’appareil nécessite des puces économes et économes et une architecture de faible latence-des éléments de sésame n’ont pas encore détaillé publiquement.

L’accent mis par la société sur le réalisme pourrait exercer la durée de vie de la batterie ou des limites thermiques dans les facteurs de forme matérielle comme les verres. Entre les versions open source, l’intégration matérielle ambitieuse et une évaluation auraient franchi la barre des milliards de dollars, la startup exerce une réclamation non seulement sur la façon dont l’IA sonne, mais sur la façon dont il se sent de parler à un.

Categories: IT Info