Zum Inhalt springen
Architektur & Entscheidungen

Architektur ist Absicht,
nicht Zufall.

Jede Grundsatzentscheidung dokumentiert — nachvollziehbar, begründet, revisierbar.

Architecture Decision Records.

Jede größere Entscheidung im Simon-Wright-Projekt wurde als Architecture Decision Record (ADR) dokumentiert: Was wurde entschieden, warum, und welche Alternativen wurden verworfen?

Das ist kein Selbstzweck — es verhindert, dass in drei Monaten niemand mehr weiß warum das System so gebaut wurde wie es ist.

Die wichtigsten Grundsatzentscheidungen.

Nr. Entscheidung Warum
E-001IONOS als Hosting-ProviderDSGVO-konform, deutsches Rechenzentrum, konsistent mit bestehender Infrastruktur
E-002WireGuard statt TailscaleKeine externe Abhängigkeit, volle Kontrolle, passt zum bestehenden Hub-and-Spoke-Netzwerk
E-003Natives Node.js statt Docker für Gateway5–6× schnellere Antwortzeiten, direkter WireGuard-Zugriff
E-004Docker-Sandbox für Agenten-SessionsIsolation gegen Prompt-Injection, kein Agent kann das Host-System kompromittieren
E-005Alle Modelle über LiteLLMEin einziger Endpunkt, API-Key bleibt auf GX10, Budget-Kontrolle
E-007Passwörter als Dateien, nicht als UmgebungsvariablenNicht sichtbar in Prozesslisten oder Docker-Inspect, bessere Zugriffskontrolle
E-008nftables für Container-IsolationKernel-Level-Firewall, Container können keine privaten Netze erreichen
E-009VPS M statt SDocker + Sandbox brauchen ausreichend RAM, VPS S riskiert Speicherüberlauf
E-011Entwicklung auf OC1, kein separater Dev-VPSDocker-Sandbox bietet ausreichende Isolation, spart Kosten
E-013Gemischtes Modell-RoutingLokale Modelle für einfache Aufgaben (kostenlos), Cloud für komplexe (kostenpflichtig)
E-014Eigener VPS für Web/Git (WEB1)Trennung der Zuständigkeiten, Gitea nur intern über WireGuard erreichbar
E-015E-Mail via IMAP, Kalender via Graph APIProvider-agnostisch, funktioniert mit M365 und später mailbox.org
E-016Team-weite Gitea-Nutzung4 Agent-Accounts, standardisierte Projektstruktur, Git-Proxy multi-agent-fähig
E-017Lossless Context ManagementDAG-basierte Zusammenfassung statt Sliding-Window, kein Informationsverlust bei langen Gesprächen
E-020Nemotron-Cascade-2 statt Super-120BAWQ-INT4 (17 GB statt 62 GB), ~4× schneller (351 vs 80 tok/s), CUDA Graphs funktionieren

Cloud-Primary. Lokaler Fallback.

Die ursprüngliche „lokal-zuerst"-Strategie wurde angepasst, nachdem das lokale Modell im Produktivbetrieb massive Halluzinationen zeigte. Die aktuelle Strategie kombiniert Zuverlässigkeit (Cloud) mit Kosteneffizienz und Datenschutz (lokal).

LiteLLM GX10 · Port 4000 GPT-5.4 Primary · Cloud kein Zusatzkosten Cascade-2-30B Fallback · Lokal kostenlos · GX10 Anthropic Direct Notfall · kein Budget-Limit Primary Fallback Notfall

Primary

GPT-5.4

OpenAI Codex über ChatGPT Teams Abo. Keine Zusatzkosten.

Fallback

Nemotron-Cascade-2

30B Parameter, AWQ-INT4, 17 GB. 351 tok/s auf GX10.

Notfall

Anthropic Direct

Wenn auch GX10 offline. Direkte API ohne LiteLLM-Umweg.

30 Milliarden Parameter. 3 Milliarden aktiv.

Mixture of Experts (MoE) ist eine KI-Architektur bei der pro Anfrage nur ein Teil der Modell-Parameter aktiviert wird. Nemotron-Cascade-2 hat 30 Milliarden Parameter — von denen pro Anfrage nur 3 Milliarden aktiv sind.

Das Ergebnis: Geschwindigkeit und Qualität eines großen Modells bei einem Bruchteil des Rechenaufwands. 351 Tokens pro Sekunde auf dem GX10. Das Vorgängermodell (120B Parameter) schaffte 80 Tokens/s bei 4× dem Speicherbedarf.

Ein Endpunkt für alle Modelle.

LiteLLM läuft auf GX10 und stellt eine einheitliche API bereit — egal ob lokal oder Cloud. Das bedeutet: kein Modell-Wechsel erfordert Code-Änderungen an den Agenten.

  • Einheitliche OpenAI-kompatible API für alle Modelle
  • Budget-Limit: max. 50 EUR/Monat für Cloud-Modelle
  • Anthropic API-Key verlässt nie den GX10
  • Automatisches Fallback wenn ein Modell nicht erreichbar ist