Gemini 1.5 ist da und wird zuerst für das Pro-Modell verfügbar sein. Entwickler und Unternehmensbenutzer können es jetzt verwenden.
Google hat seit der Umbenennung intensiv an Gemini gearbeitet und Gemini Advanced mit Gemini 1.0 Ultra veröffentlicht. Das zugrundeliegende Gemini Pro-Modell, das die Basisversion von Gemini unterstützte, war jedoch schon seit einiger Zeit in Bard verfügbar, aber jetzt aktualisiert Google es. Gemini 1.5 ist da und wird bald in der kostenlosen Version des Pro-Modells verfügbar sein. Es gibt einige ziemlich große architektonische Änderungen, die es laut Google in Bezug auf die Leistung auf Augenhöhe mit 1.0 Ultra bringen werden.
Gemini 1.5 ist ein gewaltiger Schritt nach vorne
Es schlägt GPT-4 Turbo in einigen wichtigen Bereichen
Zuallererst ist einer der größten Schritte, die Gemini 1.5 Pro unternommen hat, die Vergrößerung des Kontextfensters von 32.000 Token auf 1 Million Token. Das Kontextfenster ist im Wesentlichen, wie viel das LLM zu einem bestimmten Zeitpunkt „sehen“ kann, was eine enorme Steigerung darstellt. Außerdem hat GPT-4 Turbo nur ein Kontextfenster von 128.000 Token, und Google sagt, dass Gemini 1.5 Pro in Forschungskontexten bis zu 10 Millionen erreichen kann.
Dieses erweiterte Kontextfenster hat Auswirkungen darauf, wie viele Daten es zu einem bestimmten Zeitpunkt aufnehmen kann. Beispielsweise hat Google gezeigt, wie Gemini 1.5 Pro das 402 Seiten umfassende Luft-Boden-Sprachtranskript von Apollo 11 aufnehmen und Fragen dazu problemlos beantworten kann.
Gemini 1.5 Pro bietet außerdem eine weitere wichtige Verbesserung namens Mixture of Experts (MoE), die wir bereits bei Mixtral 8x7B gesehen haben. Mixtral verwendet eine MoE-Architektur, um eingehende Token zu verarbeiten und sie je nach Relevanz an spezialisierte neuronale Netzwerke innerhalb des Systems weiterzuleiten. Das Mixtral 8x7B-Modell verfügt über acht solcher Experten. Insbesondere ist es möglich, diese Experten hierarchisch zu strukturieren, wobei ein Experte selbst ein weiterer MoE sein kann. Nach Erhalt einer Eingabeaufforderung verwendet Mixtral 8x7B ein Routing-Netzwerk, um den am besten geeigneten Experten für jeden Token zu bestimmen. In diesem Setup wird jeder Token von zwei Experten bewertet und die endgültige Antwort ist eine Mischung ihrer Ausgaben.
Der MoE-Ansatz bietet mehrere Vorteile, insbesondere in Bezug auf die Rechenleistung während der anfänglichen Trainingsphase, kann jedoch während der Feinabstimmungsphase zu Überanpassung neigen. Überanpassung tritt auf, wenn sich ein Modell zu sehr an seine Trainingsdaten gewöhnt, was zu einer Tendenz führt, diese in seinen Antworten exakt zu reproduzieren.
Ein weiterer Vorteil von MoEs ist ihr Potenzial für schnellere Inferenzzeiten, da sie für jede Abfrage nur eine Teilmenge von Experten aktivieren. Allerdings erfordert die Unterbringung eines Modells wie Mixtral mit seinen 47 Milliarden Parametern viel RAM. Die Gesamtparameteranzahl des Modells beträgt 47 Milliarden statt 56 Milliarden, da es viele Parameter über alle Experten hinweg gemeinsam nutzt und nicht einfach die 7 Milliarden Parameter jedes Experten mit acht multipliziert.
Während oben erklärt wird, wie MoE für Mixtral funktioniert, werden die gleichen architektonischen Verbesserungen eines MoE auch in Gemini vorhanden sein, zweifellos mit einigen anderen Änderungen, die Google einführt. Google hat nicht verraten, wie viele Parameter Gemini 1.5 Pro antreiben, aber wir gehen davon aus, dass ein MoE den Betrieb dennoch deutlich effizienter machen wird.
Verbesserungen beim Argumentieren und Problemlösen
Zwillinge sollten besser in Logik und Verständnis sein
Google hat bei der Vorstellung von Gemini 1.5 Pro gezeigt, dass es das multimodale Verständnis von Eingabeaufforderungen und das logische Denken deutlich verbessern kann. Bei einem 44-minütigen Stummfilm wie im obigen Clip kann es Handlungspunkte und Ereignisse erkennen.
Diese Verbesserungen gelten jedoch nicht nur für multimodale Eingabeaufforderungen. Google sagt, dass Gemini bei einer Eingabeaufforderung mit über 100.000 Zeilen Code immer noch Modifikationen, Lösungen und andere Änderungen basierend auf den Eingabeaufforderungen des Benutzers bereitstellen kann.
Gemini 1.5 Pro wird bald verfügbar sein
Es wird zuerst für Entwickler bereitgestellt
Wenn Sie Entwickler sind und bisher Googles AI Studio oder Vertex AI verwendet haben, steht Ihnen jetzt eine eingeschränkte Vorschau zur Verfügung, mit der Sie Gemini 1.5 Pro ausprobieren können. Google sagt, dass es Gemini 1.0 Pro in 87 % seiner Benchmarks übertreffen kann und im Vergleich zu Gemini 1.0 Ultra „auf einem weitgehend ähnlichen Niveau“ abschneidet. Interessant ist auch, dass Google sagt, dass das Modell im Gespräch lernen kann, ohne dass eine Feinabstimmung erforderlich ist. Dass sein Kontextfenster so groß ist, ist das erste seiner Art, das es ihm ermöglicht, deutlich mehr zu tun, als es bisher mit einem LLM möglich war potplayer.
Google sagt, dass Gemini 1.5 Pro bei der Veröffentlichung in größerem Maßstab mit einem 128-K-Kontextfenster verfügbar sein wird. Außerdem will das Unternehmen „Preisstufen“ einführen, die beim standardmäßigen 128-K-Kontextfenster beginnen und bis zu 1 Million Tokens reichen. Frühtester müssen mit einer höheren Latenzzeit bei der höheren Kontextfenstergrenze rechnen, während der Testphase entstehen dafür jedoch keine Kosten.
Normale Benutzer, die es ausprobieren möchten, müssen vorerst warten. Google sagt nicht, wann es eingeführt wird, außer „bald“, was nicht wirklich viel aussagt. Da Entwickler es jetzt schon ausprobieren können, ist es wahrscheinlich, dass es für die meisten Leute in den nächsten Wochen oder Monaten verfügbar sein wird.