DeepSeek präsentiert V3.2-Exp: Deutlich günstigere API-Preise und neue Architektur

DeepSeek hat sein neuestes Sprachmodell vorgestellt – DeepSeek V3.2-Exp. Das Besondere daran ist nicht allein die solide Leistung, sondern vor allem die drastische Senkung der API-Kosten. Mit einem Preis von nur 0,028 US-Dollar pro einer Million Input-Tokens bei Cache-Treffern liegt das Modell rund 50 % unter dem bisherigen V3.1-Terminus. Auch bei langen Kontexten von bis zu 128.000 Tokens bleibt die Preisstruktur erstaunlich stabil.
Das Modell ist über die hauseigene API nutzbar, kann aber auch direkt von Hugging Face oder GitHub heruntergeladen werden – lizenziert unter MIT, also uneingeschränkt auch für kommerzielle Projekte.
Neue Preisstruktur
Im Vergleich zum Vorgänger hat DeepSeek die Tarife deutlich reduziert:
- Input (Cache Hit): 0,028 $ / 1 Mio. Tokens
- Input (Cache Miss): 0,28 $ / 1 Mio. Tokens
- Output: 0,42 $ / 1 Mio. Tokens
Zum Vergleich: Unter Terminus lagen die Preise noch bei 0,07 $/0,56 $/1,68 $ pro Million Tokens. Die alte Version bleibt nur noch bis 15. Oktober verfügbar und wird dann eingestellt.
Ein Blick auf den Markt zeigt: DeepSeek gehört mit V3.2-Exp inzwischen zu den preiswertesten Optionen. Nur OpenAIs GPT-5 Nano liegt mit noch niedrigeren Preisen an der Spitze.
Technischer Kern: Sparse Attention
Der entscheidende Fortschritt steckt in der Architektur. Während klassische Transformer-Modelle auf dichter Selbstaufmerksamkeit basieren und bei langen Eingaben quadratisch steigende Rechenlast erzeugen, setzt DeepSeek auf DeepSeek Sparse Attention (DSA).
Ein sogenannter Lightning Indexer filtert nur die relevanten Tokens für den Aufmerksamkeitsmechanismus heraus. Ergebnis: Deutlich weniger Rechenaufwand, geringere Kosten – bei nahezu gleicher Qualität. Besonders bei langen Kontexten wie Dokumentenanalysen, komplexen Chats oder Code-Reviews bleibt die Effizienz erhalten.
Verbesserte Nachtrainings-Strategie
Neben der Architektur hat DeepSeek auch den Trainingsprozess angepasst:
- Spezialisten-Distillation – eigene Modelle für Mathematik, Programmierung, Logik und Suche wurden trainiert und ihr Wissen in das Hauptmodell zurückgeführt.
- Einheitliches Reinforcement Learning – statt mehrstufiger Prozesse kombiniert DeepSeek nun Argumentation, Agentenverhalten und Alignment in einem RL-Schritt (GRPO-Ansatz).
Das sorgt für konsistente Leistung, verhindert „Vergessen“ früherer Fähigkeiten und bringt das Modell nahe an das Niveau der spezialisierten Varianten.
Benchmarks und Leistung
Die Tests zeigen ein ausgewogenes Bild:
- MMLU-Pro bleibt bei 85,0
- AIME 2025 steigt leicht auf 89,3
- GPQA-Diamond sinkt minimal von 80,7 auf 79,9
- Codeforces verbessert sich von 2046 auf 2121
- BrowseComp von 38,5 auf 40,1
Insgesamt bleibt die Performance stabil – mit kleinen Einbußen im komplexen Reasoning, aber klaren Kostenvorteilen.
Open Source und Deployment
DeepSeek bleibt seiner offenen Linie treu: Die Gewichte sind auf Hugging Face frei verfügbar, inklusive optimierter Kernel (TileLang, CUDA/FlashMLA). Frameworks wie SGLang und vLLM unterstützen V3.2-Exp bereits ab Veröffentlichung, auch mit Kontexten bis 128k Tokens.
Für lokale Nutzung stehen Docker-Images bereit, optimiert für NVIDIA H200, AMD MI350 und NPU-Setups. Unterstützt werden BF16, FP8 und FP32.
Einordnung für Unternehmen
Für Firmen bieten die neuen Preise klare Vorteile, dennoch sind einige Faktoren zu beachten:
- Datenschutz & Compliance – API-Nutzung bedeutet Verarbeitung über Server eines Unternehmens mit Sitz in Hongkong. Selbst-Hosting kann hier eine Lösung sein.
- Kosten vs. Kontrolle – API ist sofort einsatzbereit, Eigenbetrieb verlangt Ressourcen, gibt aber volle Datenhoheit.
- Vendor-Diversifikation – mit DeepSeek können Unternehmen ihre Abhängigkeit von US-Anbietern reduzieren.
Besonders spannend: Auch im Eigenbetrieb bleibt das Kostenmodell bei langen Kontexten günstiger als bei vielen Mitbewerbern.