Eine neue Rasse von Sprach-AI-Startup macht Wellen und Sesam AI ist mitten in der Mitte. Mit der Begründeten von Oculus’Brendan Iribe und Ubiquity6s Ankit Kumar verhandelt das Unternehmen derzeit eine Finanzierungsrunde über 200 Millionen US-Dollar, wobei Sequoia Capital und Spark Capital Berichten zufällig. Milliarden-das Unternehmen als einer der am engsten beobachteten Spieler in der Konversations-AI. Die Antwort von Sesam ist weder mehr Geschwindigkeit noch mehr Skala. Es ist Realismus-eine emotional bewusste KI, die nicht nur glatt klingt, sondern lebendig klingt. Real

Sesams Conversational Speech Model (CSM) steht im Kern seines Produkts. Das Modell treibt digitale Assistenten namens Maya und Miles an und umfasst Unvollkommenheiten wie Zögern, Stotter, Tonverschiebungen und inkonsistentes Tempo. Dies ist kein Fehler. Es ist beabsichtigt. Benutzer beschrieben ihre Erfahrungen mit dem Sprachassistenten als”unheimlich menschlich klingend”und sogar”unangenehm”.

Der Assistent ahmt nicht nur den Ton nach. Es interpretiert die emotionalen Signale in der Stimme des Benutzers-eine langsamere, beruhigendere Tonie, wenn Stress erkannt wird oder in kreativen Interaktionen spielerisch wird. Der Assistent kann Rollenspiele, Anpassung an Charakteraufforderungen und das Verschieben des Verhaltens abhängig vom Kontext. Es wurde entwickelt, um in Echtzeit auf Form und Rhythmus eines Gesprächs zu reagieren, nicht nur auf die gesprochenen Wörter. Voice”, das Modell verändert seine Lieferung dynamisch basierend auf kontextuellen Signalen. Dies ermöglicht es der KI, auf eine Weise zu reagieren, die sich emotional authentischer als mechanisch vorgeschrieben fühlt. Github Unter der lizenzenden Apache 2.0-Lizenz öffnen die Tür für Entwickler mit minimalen Beschränkungen. Das 1B-Parameter-Basismodell kann auch direkt über eine gehostete Demo unter umarmtes Gesicht . CSM verarbeitet diese zusammen mit Textdaten, wodurch es in der Lage ist, mit kontextuell bewusstem, emotional abgestimmter Sprache zu reagieren. Im Gegensatz zu visuell beeindruckenden Headsets konzentriert sich das Produkt auf Audio und bietet die ganztägige Interaktion mit seinem AI-Assistenten. 

Anjney Midha, Generalpartner von Andreessen Horowitz, einer der frühesten Investoren von Sesam, schrieb in a

Dieser Realismus stellt auch Design-und Leistungsabschreibungen auf. Das Ausführen von emotional reaktionsschnellen Modellen in Echtzeit, insbesondere auf tragbaren Geräten, ist mit hohen Rechenkosten verbunden. Die Verarbeitung des natürlichen Dialogs On-Device erfordert leistungsstarke Chips und Architektur mit niedriger Latenz-und Sesam hat noch öffentlich beschrieben. Zwischen Open-Source-Veröffentlichungen, ehrgeizigen Hardware-Integration und einer Bewertung, die die Milliarden-Dollar-Marke überquert, steckt das Startup eine Behauptung, nicht nur darüber, wie KI klingt, sondern wie es sich anfühlt, mit einem zu sprechen.