Eine neue Rasse von Sprach-AI-Startup macht Wellen und Sesam AI ist mitten in der Mitte. Mit der Begründeten von Oculus’Brendan Iribe und Ubiquity6s Ankit Kumar verhandelt das Unternehmen derzeit eine Finanzierungsrunde über 200 Millionen US-Dollar, wobei Sequoia Capital und Spark Capital Berichten zufällig. Milliarden-das Unternehmen als einer der am engsten beobachteten Spieler in der Konversations-AI. Die Antwort von Sesam ist weder mehr Geschwindigkeit noch mehr Skala. Es ist Realismus-eine emotional bewusste KI, die nicht nur glatt klingt, sondern lebendig klingt. Real
Sesams Conversational Speech Model (CSM) steht im Kern seines Produkts. Das Modell treibt digitale Assistenten namens Maya und Miles an und umfasst Unvollkommenheiten wie Zögern, Stotter, Tonverschiebungen und inkonsistentes Tempo. Dies ist kein Fehler. Es ist beabsichtigt. Benutzer beschrieben ihre Erfahrungen mit dem Sprachassistenten als”unheimlich menschlich klingend”und sogar”unangenehm”. Der Assistent ahmt nicht nur den Ton nach. Es interpretiert die emotionalen Signale in der Stimme des Benutzers-eine langsamere, beruhigendere Tonie, wenn Stress erkannt wird oder in kreativen Interaktionen spielerisch wird. Der Assistent kann Rollenspiele, Anpassung an Charakteraufforderungen und das Verschieben des Verhaltens abhängig vom Kontext. Es wurde entwickelt, um in Echtzeit auf Form und Rhythmus eines Gesprächs zu reagieren, nicht nur auf die gesprochenen Wörter. Voice”
Anjney Midha, Generalpartner von Andreessen Horowitz, einer der frühesten Investoren von Sesam, schrieb in a
Dieser Realismus stellt auch Design-und Leistungsabschreibungen auf. Das Ausführen von emotional reaktionsschnellen Modellen in Echtzeit, insbesondere auf tragbaren Geräten, ist mit hohen Rechenkosten verbunden. Die Verarbeitung des natürlichen Dialogs On-Device erfordert leistungsstarke Chips und Architektur mit niedriger Latenz-und Sesam hat noch öffentlich beschrieben. Zwischen Open-Source-Veröffentlichungen, ehrgeizigen Hardware-Integration und einer Bewertung, die die Milliarden-Dollar-Marke überquert, steckt das Startup eine Behauptung, nicht nur darüber, wie KI klingt, sondern wie es sich anfühlt, mit einem zu sprechen.