Gemini: schnelleres Modell, größeres Kontextfenster und KI-Agenten (2024)

Im Dezember haben wir unser erstes von Grund auf multimodales Modell Gemini 1.0 in drei Varianten eingeführt: Ultra, Pro und Nano. Nur wenige Monate später wurde Gemini 1.5 Pro veröffentlicht, mit verbesserter Leistung und einem Durchbruch im Bereich Kontextfenster, das eine Million Tokens umfasst.

Entwicklerinnen und Entwickler sowie Unternehmenskunden nutzen 1.5 Pro schon jetzt auf unglaublich kreative Weise: das lange Kontextfenster, die multimodalen Analysefunktionen und die beeindruckende Gesamtleistung werden als sehr nützlich empfunden.

Durch Nutzerfeedback wissen wir, dass für einige Anwendungen geringere Latenzzeiten und niedrigere Kosten für die Bereitstellung benötigt werden. Inspiriert durch diese Rückmeldungen haben wir Gemini 1.5 Flash entwickelt: ein neues Modell, das speziell für Geschwindigkeit und Leistung optimiert wurde, auch bei anspruchsvollen Anwendungen.

Sowohl Gemini 1.5 Pro als auch Gemini 1.5 Flash sind in einer öffentlichen Vorschau mit einem 1-Millionen-Token-Kontextfenster via Google AI Studio und Vertex AI verfügbar. Je nach Verfügbarkeit und Wartezeit steht Entwickler*innen und Google Cloud-Kunden ein Kontextfenster mit 2 Millionen Token zur Verfügung. Und wir integrieren 1.5 Pro in Google-Produkte, einschließlich Gemini Advanced und in Workspace-Apps.

Wir kündigen außerdem Gemma 2 an, unsere nächste Generation offener Modelle, und zeigen Project Astra, ein Ausblick auf die Zukunft universeller KI-Agenten.

Updates für unsere Gemini-Modelle

Das neue 1.5 Flash, optimiert für Geschwindigkeit und Effizienz

Gemini 1.5 Flash ist das neueste und schnellste Modell unserer Gemini-Familie. Es ist ideal für große, anspruchsvolle Aufgaben, kosteneffizienter in der Bereitstellung und bietet ein erweitertes Kontextfenster für noch bessere Ergebnisse.

Obwohl es sich um ein leichteres Modell als das 1.5 Pro handelt, kann es über große Informationsmengen hinweg multimodal schlussfolgern und liefert für seine Größe eine beeindruckende Qualität.

1.5 Flash zeichnet sich durch Stärken in den Bereichen Zusammenfassungen, Chat-Anwendungen, Bild- und Videountertitel, Datenextraktion aus langen Dokumenten und Tabellen und mehr aus. Das liegt daran, dass es von 1.5 Pro durch einen Prozess namens „Destillation“ trainiert wurde, bei dem die wichtigsten Kenntnisse und Fähigkeiten eines größeren Modells auf ein kleineres, effizienteres Modell übertragen werden.

Weitere Informationen über 1.5 Flash findet ihr in unserem aktualisierten technischen Bericht zu Gemini 1.5, auf unserer Gemini-Webseite und im Entwicklerblog.

1.5 Pro wird noch nützlicher

In den letzten Monaten haben wir Gemini 1.5 Pro, unser bestes Modell für allgemeine Leistungen bei einem breiten Aufgabenspektrum, deutlich verbessert. Neben der Erweiterung des Kontextfensters auf 2 Millionen Token haben wir außerdem durch Daten- und Algorithmusverbesserungen das Coding, das logische Schlussfolgern und Planen, die längere zusammenhängende Konversation sowie das Audio- und Bildverständnis verbessert.

Die neueste Version von 1.5 Pro erreicht starke Verbesserungen bei öffentlichen Benchmarks in mehreren Bereichen, wie Argumentation und Coding, sowie state-of-the-art Leistung bei mehreren Bild- und Videoverständnis-Benchmarks, darunter: MMMU, AI2D, MathVista, ChartQA, DocVQA, InfographicVQA und EgoSchema.

1.5 Pro kann jetzt immer komplexeren und differenzierteren Anweisungen folgen, einschließlich solcher, die das Verhalten auf Produktebene wie Rolle, Format und Stil festlegen. Wir haben die Steuerung der Antworten des Modells für bestimmte Anwendungsfälle verbessert, z. B. die Gestaltung der Persona und des Antwortstils eines Chat-Agenten oder die Automatisierung von Arbeitsabläufen durch mehrere Funktionsaufrufe. Und wir haben es Nutzerinnen und Nutzern ermöglicht, das Modellverhalten durch das Festlegen von Systemanweisungen zu steuern.

Die Gemini API und das Google AI Studio verarbeiten nun auch Audio. Damit kann Gemini 1.5 Pro jetzt Bild und Ton für in Google AI Studio hochgeladene Videos analysieren.

Weitere Informationen zu 1.5 Pro findet ihr in unserem aktualisierten technischen Bericht zu Gemini 1.5 und auf unserer Gemini-Website.

Gemini Nano versteht multimodalen Input

Gemini Nano wird über die Texteingabe hinaus erweitert und umfasst nun auch Bilder. Beginnend mit Pixel werden Apps, die Gemini Nano mit Multimodalität nutzen, in der Lage sein, die Welt so zu verstehen, wie Menschen es tun – nicht nur durch Texteingabe, sondern auch durch Bild, Ton und Sprache.

Mehr dazu erfahrt ihr im Blogpost zu Gemini 1.0 Nano auf Android.

Die nächste Generation offener Modelle

Heute teilen wir auch eine Reihe von Updates zu Gemma, unserer Familie offener Modelle, die auf der gleichen Forschung und Technologie basieren wie die Gemini-Modelle.

Im Rahmen dessen kündigen wir Gemma 2.0 an, unsere nächste Generation offener Modelle für verantwortungsvolle KI-Innovation. Gemma 2.0 verfügt über eine neue Architektur, die auf hohe Leistung und Effizienz ausgelegt ist, und wird in neuen Größen erhältlich sein.

Die Gemma-Familie wird außerdem um PaliGemma erweitert, unser erstes Vision Language Model, das von PaLI-3 inspiriert wurde, einem kleineren, schnelleren und stärkeren Modell, das ähnlich gut abschneidet wie Modelle, die zehnmal größer sind. Darüber hinaus haben wir noch mehr in verantwortungsvolle KI investiert und unser Responsible Generative AI Toolkit mit einem LLM Comparator zur Bewertung der Qualität von Modellantworten aktualisiert.

Lest mehr dazu im Entwicklerblog.

Unser Fortschritt bei universellen KI-Agenten

Im Rahmen der Mission von Google Deepmind, KI verantwortungsvoll zum Nutzen der Menschheit zu entwickeln, wollten wir schon immer einen universellen KI-Agenten entwickeln, der im Alltag hilfreich sein kann. Deshalb stellen wir heute das Projekt Astra vor: unsere Vision für die Zukunft der KI-Agenten.

Um wirklich hilfreich zu sein, muss ein KI-Agent die komplexe und dynamische Welt verstehen und, wie Menschen, entsprechend reagieren können. Der KI-Agent muss darüber hinaus proaktiv und lernfähig sein, damit die Nutzerinnen und Nutzer auf natürliche Weise und ohne Verzögerungen mit ihm sprechen können.

Wir haben bei der Entwicklung von KI-Systemen, die multimodale Informationen verstehen können, große Fortschritte gemacht. Dennoch bleibt es eine große technische Herausforderung, die Reaktionszeit auf ein konversationsfähiges Niveau zu bringen. In den letzten Jahren haben wir daran gearbeitet, die Art und Weise zu verbessern, wie unsere Modelle wahrnehmen, sich erinnern, argumentieren und sich unterhalten, damit sich das Tempo und die Qualität der Interaktion natürlicher anfühlen.

10:25

Ein Video unseres Prototyp-Agenten, das aus zwei Teilen besteht. Jeder Teil wurde in einem einzigen Take in Echtzeit aufgenommen.

Diese KI-Agenten basieren auf unserem Gemini-Modell und anderen aufgabenspezifischen Modellen und wurden entwickelt, um Informationen schneller zu verarbeiten, indem sie Videobilder kontinuierlich kodieren, die Video- und Spracheingabe in einer Zeitleiste von Ereignissen kombinieren und diese Informationen für einen effizienten Abruf zwischenspeichern.

Durch die Nutzung unserer führenden Sprachmodelle haben wir auch deren Klang verbessert und den KI-Agenten eine größere Bandbreite an Betonungen gegeben. Diese KI-Agenten können den Kontext, in dem sie eingesetzt werden, besser verstehen und im Gespräch schnell reagieren.

Es ist leicht, sich eine Zukunft vorzustellen, in der ihr über euer Telefon oder eure Brille einen Assistenten an eurer Seite habt. Einige dieser Funktionen werden noch in diesem Jahr für Google-Produkte verfügbar sein, beispielsweise für die Gemini-App (aktuell noch nicht für Deutschland verfügbar).

Ständige Forschung

Mit unserer Gemini-Modellfamilie haben wir bisher unglaubliche Fortschritte gemacht und wir arbeiten daran, den Stand der Technik noch weiter voranzutreiben. Wir investieren kontinuierlich in Innovationen. Dadurch können wir neuartigen Ideen an der Grenze des technisch Machbaren nachgehen und gleichzeitig neue, faszinierende Anwendungsfälle mit Gemini erschließen.

Hier findet ihr mehr heraus über Gemini und seine Fähigkeiten.