Architektur ist Absicht,
nicht Zufall.
Jede Grundsatzentscheidung dokumentiert — nachvollziehbar, begründet, revisierbar.
Architecture Decision Records.
Jede größere Entscheidung im Simon-Wright-Projekt wurde als Architecture Decision Record (ADR) dokumentiert: Was wurde entschieden, warum, und welche Alternativen wurden verworfen?
Das ist kein Selbstzweck — es verhindert, dass in drei Monaten niemand mehr weiß warum das System so gebaut wurde wie es ist.
Die wichtigsten Grundsatzentscheidungen.
| Nr. | Entscheidung | Warum |
|---|---|---|
| E-001 | IONOS als Hosting-Provider | DSGVO-konform, deutsches Rechenzentrum, konsistent mit bestehender Infrastruktur |
| E-002 | WireGuard statt Tailscale | Keine externe Abhängigkeit, volle Kontrolle, passt zum bestehenden Hub-and-Spoke-Netzwerk |
| E-003 | Natives Node.js statt Docker für Gateway | 5–6× schnellere Antwortzeiten, direkter WireGuard-Zugriff |
| E-004 | Docker-Sandbox für Agenten-Sessions | Isolation gegen Prompt-Injection, kein Agent kann das Host-System kompromittieren |
| E-005 | Alle Modelle über LiteLLM | Ein einziger Endpunkt, API-Key bleibt auf GX10, Budget-Kontrolle |
| E-007 | Passwörter als Dateien, nicht als Umgebungsvariablen | Nicht sichtbar in Prozesslisten oder Docker-Inspect, bessere Zugriffskontrolle |
| E-008 | nftables für Container-Isolation | Kernel-Level-Firewall, Container können keine privaten Netze erreichen |
| E-009 | VPS M statt S | Docker + Sandbox brauchen ausreichend RAM, VPS S riskiert Speicherüberlauf |
| E-011 | Entwicklung auf OC1, kein separater Dev-VPS | Docker-Sandbox bietet ausreichende Isolation, spart Kosten |
| E-013 | Gemischtes Modell-Routing | Lokale Modelle für einfache Aufgaben (kostenlos), Cloud für komplexe (kostenpflichtig) |
| E-014 | Eigener VPS für Web/Git (WEB1) | Trennung der Zuständigkeiten, Gitea nur intern über WireGuard erreichbar |
| E-015 | E-Mail via IMAP, Kalender via Graph API | Provider-agnostisch, funktioniert mit M365 und später mailbox.org |
| E-016 | Team-weite Gitea-Nutzung | 4 Agent-Accounts, standardisierte Projektstruktur, Git-Proxy multi-agent-fähig |
| E-017 | Lossless Context Management | DAG-basierte Zusammenfassung statt Sliding-Window, kein Informationsverlust bei langen Gesprächen |
| E-020 | Nemotron-Cascade-2 statt Super-120B | AWQ-INT4 (17 GB statt 62 GB), ~4× schneller (351 vs 80 tok/s), CUDA Graphs funktionieren |
Cloud-Primary. Lokaler Fallback.
Die ursprüngliche „lokal-zuerst"-Strategie wurde angepasst, nachdem das lokale Modell im Produktivbetrieb massive Halluzinationen zeigte. Die aktuelle Strategie kombiniert Zuverlässigkeit (Cloud) mit Kosteneffizienz und Datenschutz (lokal).
Primary
GPT-5.4
OpenAI Codex über ChatGPT Teams Abo. Keine Zusatzkosten.
Fallback
Nemotron-Cascade-2
30B Parameter, AWQ-INT4, 17 GB. 351 tok/s auf GX10.
Notfall
Anthropic Direct
Wenn auch GX10 offline. Direkte API ohne LiteLLM-Umweg.
30 Milliarden Parameter. 3 Milliarden aktiv.
Mixture of Experts (MoE) ist eine KI-Architektur bei der pro Anfrage nur ein Teil der Modell-Parameter aktiviert wird. Nemotron-Cascade-2 hat 30 Milliarden Parameter — von denen pro Anfrage nur 3 Milliarden aktiv sind.
Das Ergebnis: Geschwindigkeit und Qualität eines großen Modells bei einem Bruchteil des Rechenaufwands. 351 Tokens pro Sekunde auf dem GX10. Das Vorgängermodell (120B Parameter) schaffte 80 Tokens/s bei 4× dem Speicherbedarf.
Ein Endpunkt für alle Modelle.
LiteLLM läuft auf GX10 und stellt eine einheitliche API bereit — egal ob lokal oder Cloud. Das bedeutet: kein Modell-Wechsel erfordert Code-Änderungen an den Agenten.
- › Einheitliche OpenAI-kompatible API für alle Modelle
- › Budget-Limit: max. 50 EUR/Monat für Cloud-Modelle
- › Anthropic API-Key verlässt nie den GX10
- › Automatisches Fallback wenn ein Modell nicht erreichbar ist