Nemotron 3 Super ersetzt Nemotron 49B — Was unser Enterprise-RAG-Benchmark zeigt
Im Labor des Bechtle AI Competence Center Bremen haben wir Nemotron 3 Super direkt gegen den Vorgänger Nemotron 49B getestet — 3,4× schneller, 1 GPU statt 2, gleiche Qualität.
Kategorie: Lab-Insights | Enterprise KI
Autor: Daniel Röding, Bechtle AI Competence Center Bremen
Hintergrund: Unser Enterprise-Rack in Bremen
Im AI Competence Center Bremen betreiben wir seit Monaten ein Enterprise-Rack mit 4× NVIDIA A100 80GB GPUs für lokale KI-Inference. Unser primärer Anwendungsfall: Retrieval-Augmented Generation (RAG) für die automatisierte Analyse von Ausschreibungen, Vertragsdokumenten und Fachtexten — vollständig on-premise, vollständig DSGVO-konform.
Bisher war NVIDIA Nemotron 49B unser Hauptmodell: als NIM-Container, mit TensorRT-LLM, Tensor Parallelism über 2 GPUs. Das Modell lieferte zuverlässige Ergebnisse für unsere Anwendungsfälle — aber es belegte zwei GPUs und war alles andere als schnell.
Als NVIDIA letzte Woche Nemotron 3 Super veröffentlichte, haben wir es direkt in unser Labor geholt.
Was ist Nemotron 3 Super?
Nemotron 3 Super ist ein Hybrid Mamba-Transformer MoE-Modell (Mixture-of-Experts) mit 120 Milliarden Parametern — von denen zur Laufzeit jedoch nur 12 Milliarden gleichzeitig aktiv sind. Das ist der Kern der Effizienz: nicht die schiere Modellgröße entscheidet über die Inferenzgeschwindigkeit, sondern die aktive Parameterzahl.
Das Modell unterstützt darüber hinaus einen integrierten Reasoning-Modus, der bei komplexen Aufgaben eine interne Denkphase durchläuft, bevor es eine Antwort generiert.
Das Benchmark-Setup
Wir haben 13 Tests in 4 Kategorien durchgeführt:
| Kategorie | Tests | Beschreibung |
|---|---|---|
| Deutsche Fachtexte | 3 | Zusammenfassung, Extraktion, Klassifikation |
| Tabellenverständnis | 3 | Excel-Anlagen, Preistabellen, Vergleichsmatrizen |
| RAG-Kernaufgaben | 4 | Retrieval-Qualität, Kontexttreue, Halluzinationen |
| Tool-Calling | 3 | Strukturierte Ausgaben, Funktion-Aufrufe |
Als Testdaten verwendeten wir echte Ausschreibungsdokumente (EVB-IT) mit Preistabellen und Leistungsbeschreibungen — kein aufgeräumtes Benchmark-Spielzeug, sondern die Dokumente, die im Unternehmensalltag auf dem Schreibtisch landen.
3 Konfigurationen wurden verglichen:
- Nemotron 49B lokal (NIM, TensorRT-LLM, Tensor Parallel)
- Nemotron 3 Super via Cloud (OpenRouter API)
- Nemotron 3 Super lokal (Ollama GGUF, quantisiert)
Die Ergebnisse
| Konfiguration | Ø Antwortzeit | Ø Tokens/s | GPUs | Qualität |
|---|---|---|---|---|
| Nemotron 49B (NIM, TP=2) | 31,7s | 29 | 2 | Referenz |
| 3 Super Cloud (OpenRouter) | 10,9s | 55 | — | gleichwertig |
| 3 Super lokal (Ollama) | 9,3s | 48 | 1 | gleichwertig |
Das Ergebnis ist eindeutig:
- 3,4× schneller als der Vorgänger — bei gleichwertiger Antwortqualität
- 1 GPU statt 2 — die zweite GPU ist jetzt frei für andere Workloads
- Deutsche Texte, Tabellen und RAG-Szenarien funktionieren ausgezeichnet
- Reasoning- und Tool-Calling-Fähigkeiten sind mindestens auf dem Niveau des 49B
Technische Konfiguration: Temperatur-Feinheit
NVIDIA empfiehlt für Nemotron 3 Super eine Temperatur von 1.0 — ungewöhnlich hoch. Der Grund liegt im integrierten Reasoning-Modus: Dessen interne Denkphase verliert bei niedrigeren Temperaturen an Qualität.
In unserer Produktionskonfiguration differenzieren wir deshalb:
- RAG-Szenarien (faktenbasierte Konsistenz): Temperatur 0.3–0.6, Reasoning-Modus deaktiviert
- Agentengestützte Workflows (komplexe Logik): Empfohlene Werte, Reasoning aktiviert
Die Konfiguration erfolgt pro Request — das Modell bedient beide Szenarien ohne Kompromisse.
Was bedeutet das für Unternehmen?
Ein Modell, das auf einer einzigen GPU die gleiche oder bessere Leistung bringt als sein Vorgänger auf zweien — das senkt die Einstiegshürde für on-premise KI erheblich.
In regulierten Branchen, wo Cloud-APIs aus Datenschutz- oder Compliance-Gründen keine Option sind, macht das einen konkreten Unterschied in der Wirtschaftlichkeit: weniger Hardware, gleiche Leistung, mehr Flexibilität.
Wir haben unser Enterprise-Rack erfolgreich auf Nemotron 3 Super umgestellt — ohne Qualitätsverlust, mit freigewordenen GPU-Ressourcen und spürbar schnellerer Verarbeitung.
Nächste Schritte im Lab
Parallel zur Modell-Migration arbeiten wir an der Optimierung unseres Chunking-Moduls für komplexe Ausschreibungsdokumente. Die Erkenntnisse aus diesen Labs fließen direkt in unsere Kunden-Deployments ein.
Interesse an unserem Enterprise-RAG-Ansatz oder an einem Lab-Besuch in Bremen? Schreibt mir gerne.
Dieser Artikel wurde aus einem Lab-Report des Bechtle AI Competence Center Bremen aufbereitet. Benchmark-Daten stammen aus internen Tests auf BERTA (Bechtle Enterprise RAG Test Architecture).