Auf den Punkt: Gemini 3.5 Flash kann nun Bildschirminhalte erfassen und computergesteuerte Arbeitsabläufe selbstständig durchführen, was neue Integrationsmöglichkeiten für Unternehmensanwendungen eröffnet.
Google hat Gemini 3.5 Flash um Computer-Use-Funktionen erweitert, wodurch das Modell eigenständig Bildschirmaufzeichnungen analysieren und softwaregesteuerte Aufgaben ausführen kann.
Google hat sein Sprachmodell Gemini 3.5 Flash um eine Computer-Use-Kapazität erweitert. Diese Funktionalität ermöglicht es dem Modell, Bildschirmaufzeichnungen zu interpretieren, Benutzerschnittstellen zu verstehen und selbstständig Aktionen auf einem Computer auszuführen — ohne dass dafür spezifische APIs oder zusätzliche Integrationen erforderlich sind.
Die Computer-Use-Fähigkeit adressiert eine relevante Herausforderung für CTOs und Entwickler: Legacysysteme und proprietäre Anwendungen, die keine modernen APIs zur Verfügung stellen, können dadurch trotzdem in KI-gesteuerte Workflows integriert werden. Das Modell kann über seine Interpretation von Bildschirminhalten Dateneinträge vornehmen, Formulare ausfüllen oder Geschäftsprozesse orchestrieren.
Praktisch bedeutet dies, dass Entwicklerteams KI-Agenten implementieren können, die bestehende Unternehmenssoftware direkt bedienen, statt komplexe Schnittstellenentwicklung durchführen zu müssen. Die Integration läuft über Googles API-Ökosystem und erfordert im Wesentlichen die Übergabe von Screenshots an das Modell, das dann geeignete Handlungen vorschlägt oder ausführt.
Quelle: deepmind.google · Erschienen 24. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.