NVIDIA Nemotron 3 Super erreicht Together AI mit 1M Token Kontextfenster
Jessie A Ellis 11.03.2026 21:43
NVIDIAs Nemotron 3 Super Modell mit 120B-Parametern ist jetzt auf Together AI verfügbar und bietet 5-fache Durchsatzgewinne für Multi-Agent-KI-Systeme und Unternehmensworkloads.
Together AI gab am 11. März die Verfügbarkeit von NVIDIAs Nemotron 3 Super auf seiner Dedicated Inference Plattform bekannt und verschafft Unternehmensentwicklern Zugang zu einem Reasoning-Modell mit 120 Milliarden Parametern, das für Multi-Agent-KI-Systeme optimiert ist. Die NVIDIA-Aktie wurde bei 186,03 $ gehandelt, ein Plus von 0,66 % auf die Nachricht.
Das Timing ist wichtig. Nemotron 3 Super stellt NVIDIAs zweites Open-Weight-Modell in der Nemotron 3-Familie dar, nach der Nano-Veröffentlichung im Dezember, und zielt auf einen spezifischen Schmerzpunkt in der Produktions-KI ab: den rechnerischen Overhead beim Ausführen komplexer Agent-Workflows in großem Maßstab.
Warum die Architektur wichtig ist
Hier ist, was dieses Modell vom typischen Parameter-Wettrüsten unterscheidet. Trotz seiner insgesamt 120B Parameter sind nur 12B während der Inferenz aktiv. Das Hybrid-Design – das Transformer-Attention mit Mamba-Sequenzverarbeitung kombiniert – liefert laut NVIDIA einen 5-fach höheren Durchsatz als das vorherige Nemotron Super Modell.
Das 1-Million-Token-Kontextfenster adressiert, was Entwickler „Kontext-Explosion" nennen. Multi-Agent-Anwendungen können 15-mal mehr Token verbrauchen als Standard-Chat-Interaktionen, und die meisten Modelle scheitern an dieser Last. Nemotron 3 Super bewältigt ganze Codebasen, umfangreiche Dokumentenspeicher und erweiterte Agent-Trajektorien ohne Leistungseinbruch.
Multi-Token-Prediction-Training ermöglicht es dem Modell, mehrere Token gleichzeitig pro Vorwärtsdurchlauf zu generieren. Für Code-Generierung oder strukturierte Ausgaben berichtet NVIDIA von 50 % schnellerer Token-Generierung im Vergleich zu führenden offenen Modellen.
Together AIs Ansatz
Das Ausführen eines 120B-Hybrid-Modells mit Million-Token-Kontext erfordert typischerweise verteiltes Computing über mehrere Knoten. Together AIs Dedicated Inference Angebot vereinfacht die Bereitstellung auf einzelne NVIDIA H200- oder H100-GPUs – keine GPU-Bereitstellung auf Seiten des Entwicklers erforderlich.
Die Plattform verspricht 99,9 % Uptime SLA und SOC 2 Compliance und positioniert dies als unternehmensfertige Infrastruktur anstelle von Forschungsexperimenten.
Produktionsanwendungen
Ziel-Anwendungsfälle umfassen Entwicklerassistenten, die Codebasen analysieren, Unternehmens-Dokumentenverarbeitungssysteme, Cybersecurity-Schwachstellen-Triage und Orchestrierungsebenen, die Aufgaben über spezialisierte Agenten leiten.
Der Open-Weights-Ansatz – veröffentlicht unter NVIDIAs Nemotron Open Model License – ermöglicht es Teams, für spezifische Umgebungen feinzutunen und vor Ort zu implementieren, eine kritische Überlegung für Unternehmen mit Datensouveränitätsanforderungen.
NVIDIA kündigte am 10. März auch NemoClaw an, eine Open-Source-Plattform für KI-Agenten, die Nemotron 3 Super Implementierungen ergänzen könnte. Entwickler können sofort über Together AIs dedizierte Inferenz-Stufe auf das Modell zugreifen.
Bildquelle: Shutterstock- nvidia
- KI-Infrastruktur
- nemotron
- together ai
- Unternehmens-KI



