Was jeder Dollar an KI-Coding-Ausgaben tatsächlich bringt
25 beliebte Modelle, echte Preise, echte Engineering-Szenarien.
Datenquelle
Preise wöchentlich aus BerriAIs LiteLLM-Datensatz gezogen und mit handgepflegten Anthropic-, xAI- und Frontier-Overrides ergänzt.
Hinweis
Token-Annahmen pro Szenario sind Mediane aus typischen agentischen API-Traces. Dein realer Workload kann heißer oder kühler laufen.
Was ist der KI-Coding-Token-Kosten-Rechner?
Budget umgerechnet in greifbare Engineering-Leistung
Dieser Rechner übersetzt ein USD- oder EUR-Budget in konkrete Engineering-Arbeit — Input-Tokens, Output-Tokens und die Anzahl mittlerer Features, PR-Reviews, Code-Zeilen, Dokumentationsseiten oder E-Mails, die du auf dem gewählten Modell produzieren kannst. Der Rechner existiert, weil die meisten Budget-Entscheidungen für KI-Tools im Management getroffen werden, ohne dass jemand weiß, was ein Dollar tatsächlich kauft.
Die Token-Mathematik ist einfach, sobald man Input und Output trennt. Jedes Modell rechnet die Tokens, die du sendest, und die Tokens, die zurückkommen, getrennt ab. Input macht meist 70–90 Prozent eines agentischen Coding-Workloads aus, weil der Agent pro Aktion viele Dateien liest; Chat-Workloads drehen das Verhältnis um. Prompt-Caching senkt, wo unterstützt, den Input-Preis um etwa das Zehnfache für den gecachten Anteil.
Input-Tokens = (Budget × Input-Anteil) ÷ effektiver Input-Preis pro TokenAufgaben pro Budget = abrunden(Budget ÷ Kosten pro Aufgabe)Geh dasselbe 6-USD-Budget auf drei verschiedenen Modellen durch, damit die Lücke sichtbar wird.
Budget und Mix wählen
6 USD pro Entwickler pro Tag, Coding-Agent-Mix (85 % Input, 50 % Cache-Treffer, wenn unterstützt).
Claude Opus 4.7 — Frontier-Tier
Preise 15 / 75 USD pro 1M mit Cache. Kosten pro mittlerem Feature ≈ 0,36 USD. Budget reicht für 16 Features pro Tag, dann ist Schluss.
Claude Sonnet 4.6 — mittleres Tier
Preise 3 / 15 USD pro 1M mit Cache. Kosten pro mittlerem Feature ≈ 0,072 USD. Budget reicht für 83 Features pro Tag — fünfmal mehr als bei Opus.
DeepSeek V3 — Budget-Tier
Preise 0,27 / 1,10 USD pro 1M mit Cache. Kosten pro mittlerem Feature ≈ 0,0066 USD. Budget reicht für ca. 900 Features pro Tag bei akzeptabler Qualität.
Die Anzahl mittlerer Features ist die Headline-Kennzahl, weil sie am ehesten auf „Was schippt mein Engineering-Team pro Tag?" abbildet. Ein typischer autonomer Coding-Agent in einem echten Repo verbrennt 25–35 Tausend Input-Tokens pro Feature (Datei-Reads und Grep-Ergebnisse) und produziert einen Diff von 1–2 Tausend Tokens. Liegt deine Zahl im einstelligen Bereich, ist das Budget für das Modell zu niedrig — auf ein günstigeres Tier wechseln oder das Limit anheben. Liegt sie in den Hunderten, hast du überdimensioniert und kannst eine Stufe günstiger gehen, ohne Leistung zu verlieren.
Die PR-Review-Anzahl und die TypeScript-Zeilen sind Plausibilitätsvergleiche. Ein Pull-Request-Review verbrennt 10–15 Tausend Input-Tokens und schreibt 1,5 Tausend Output-Tokens strukturiert; reine TypeScript-Generierung kostet etwa 12 Tokens pro Zeile, sodass die TS-Zeilen-Zahl grob deinem „rohen Code-Durchsatz"-Budget entspricht.
Die Token-Schätzungen gehen von Median-Traces aus — die tatsächliche Repo-Größe, der Prompt-Overhead und Tool-Use-Schleifen können die Zahl in beide Richtungen um 30 Prozent verschieben. Cache-Trefferraten hängen davon ab, wie stabil dein System-Prompt ist und wie lange das Gespräch läuft; die Standardannahmen des Rechners sind konservativ.
Preise ändern sich wöchentlich
Preise ändern sich ohne Vorankündigung, weil die Anbieter konkurrieren. Der Datensatz wird wöchentlich per LiteLLM-Cron aktualisiert; das verifiedAt-Datum pro Modell ist die Quelle der Wahrheit. Vor einem Vertragsabschluss immer mit der Preisseite des Anbieters abgleichen.