Google setzt am Dienstag ein leistungsstarkes neues Bildbearbeitungsmodell für seine Gemini-App ein. Das von DeepMind entwickelte Update führt erweiterte Funktionen ein, die den Benutzern mehr kreative Kontrolle und Konsistenz verleihen und direkt herausfordernde Konkurrenten wie OpenAI und Adobe. Benutzer können jetzt Outfits oder Hintergründe ändern, ohne Gesichter zu verzerren, Fotos in eine einzelne Szene zu mischen oder iterative Änderungen in einem Konversationsfluss vorzunehmen. Das neue Modell ist jetzt für alle Benutzer in die Gemini-App integriert und steht Entwicklern über die Gemini-API, Google AI Studio und Vertex AI, Bild-Editing-Modell des Top-Rating-Bildes wurde . David Sharon, ein Vorsprung für Gemini-Apps, hob seinen begeisterten Empfang hervor und besagt:”Die Menschen haben bereits in frühen Vorschau Bananen gegangen-es ist das hoch bewertete Bildbearbeitungsmodell der Welt.”Dies befasst sich mit einem gemeinsamen Fehlerpunkt für viele KI-Modelle, bei denen das Bearbeiten eines Hintergrunds oder ein Outfit das Gesicht eines Subjekts auf subtile Weise verzerren kann. With this update, users can place subjects in entirely new scenarios—trying out different outfits, imagining new professions, or even seeing how they would appear in another decade—while ensuring Sie sehen immer noch aus wie sich selbst . Benutzer können jetzt mehrere Fotos mischen, um eine brandneue zusammengesetzte Szene zu erstellen. Zum Beispiel könnte man ein Foto von sich selbst und einem anderen von ihrem Hund machen, um ein perfektes Porträt von ihnen zusammen auf einem Basketballplatz zu erzeugen. Eine weitere leistungsstarke Funktion ermöglicht das „Design-Mischen“, wobei der Stil eines Bildes auf ein Objekt in einem anderen angewendet werden kann, z. B. die Farbe und Textur von Blütenblättern auf ein Paar Regenstiefel. Man könnte mit einem leeren Raum beginnen, dann Gemini bitten, die Wände zu malen, ein Bücherregal hinzuzufügen, ein Sofa zu platzieren und schließlich einen Teppich zu legen, wobei das Modell die Integrität der Szene bei jedem Schritt bewahrt. Nicole Brichtova, eine Produktleiterin bei Google DeepMind, erklärte, das Ziel sei es, die kreative Kontrolle zu verbessern und festzustellen: „Wir drängen wirklich die visuelle Qualität vorwärts und die Fähigkeit des Modells, den Anweisungen zu befolgen. Kreative KI. Der Druck verstärkte sich signifikant, nachdem Openai seinen GPT-4O-Bildgenerator im März direkt in Chatgpt integriert hatte. Dieser Schritt führte zu einem massiven Anstieg des Benutzers, das von Virusmemen angetrieben wurde, die die Leistung und die Zugänglichkeit des Modells präsentierten und einen neuen Maßstab für integrierte KI-Tools festlegten. Das Unternehmen hat kürzlich ein Trio von leistungsstarken, fIRFLY-Antriebsfunktionen eingeführt, darunter „Harmonize“, um die Farbe und Beleuchtung von hinzugefügten Objekten automatisch zu entsprechen, um die Auflösung zu verbessern, und ein verbessertes „Entfernen von Tool“. Deepa Subramaniam, ein Adobe-VP, sagte, dieser Ansatz sei durch das Feedback der Benutzer angetrieben und erklärt: „Diese neuen Innovationen stammen aus unseren laufenden Gesprächen mit der kreativen Community, in der wir hören, wie wir in Photoshop Tools entwickeln können, um Barrieren zu entfernen.”Im Gegensatz dazu zielt der Ansatz von Google auf eine breitere Verbraucherpublikum direkt in die Chat-App ab und zielt auf die Einführung von Massenzusagen. Meta hat kürzlich seine Strategie nach den Rückschlägen für interne Entwicklung geweckt und die Technologie von Midjourney lizenziert. Der KI-Chef von Meta, Alexandr Wang, rahmte den Umzug als Notwendigkeit ein und erklärte, dass das Unternehmen einen „All-of-the-of-the-of-the—Ansatz“ verfolgen muss, um die besten Produkte zu liefern. Nischenspieler entstehen, um bestimmte, anhaltende Probleme zu lösen. Zum Beispiel ist das KREA-Modell von Black Forest Labs von KREA entwickelt, um den generischen „AI-Look“ zu bekämpfen und authentischere Photorealismus zu erreichen. In ähnlicher Weise zeichnet sich Alibabas Open-Source-Qwen-Image-Modell aus, lesbaren Text zu rendern, eine wichtige Hürde für die meisten generativen Systeme. Das Unternehmen hatte erhebliche Gegenreaktionen, als Gemini in seinen frühen Tagen historisch ungenaue Bilder von Menschen hervorbrachte und es zwang, das Merkmal vorübergehend auszusetzen. Dieser neue Start wird von robusteren Sicherheitsprotokollen begleitet. Die Bilder umfassen sowohl einen sichtbaren Marker als auch ein unsichtbares, kryptografisches synthides Wasserzeichen, um deutlich zu zeigen, dass sie mit Ai-generiert sind. Midjourney steht derzeit vor einer hochkarätigen Urheberrechtsklage von Disney und Universal gegenüber seinen Schulungsdaten. Der General Counsel von Disney, Horacio Gutierrez, hat eine harte Grenze genommen und erklärt:”Piraterie ist Piraterie. Und die Tatsache, dass es von einem A.I.-Unternehmen getan wird, macht es nicht weniger verletzt.”Wie der AI-Strategin Nate Jones bemerkte: „In dem Moment, in dem wir die Dominanz von Rangliste als Ziel festlegen, riskieren wir Modelle, die sich in trivialen Übungen auszeichnen und bei der Realität konfrontiert sind. Die Bewegung positioniert Gemini nicht nur als Chatbot, sondern als umfassende kreative Motor in der sich schnell entwickelnden generativen AI-Landschaft.
Categories: IT Info