Architektur & Entscheidungen

ADR

Architecture Decision Records.

Jede größere Entscheidung im Simon-Wright-Projekt wurde als Architecture Decision Record (ADR) dokumentiert: Was wurde entschieden, warum, und welche Alternativen wurden verworfen?

Das ist kein Selbstzweck — es verhindert, dass in drei Monaten niemand mehr weiß warum das System so gebaut wurde wie es ist.

15 Entscheidungen

Die wichtigsten Grundsatzentscheidungen.

Nr.	Entscheidung	Warum
E-001	IONOS als Hosting-Provider	DSGVO-konform, deutsches Rechenzentrum, konsistent mit bestehender Infrastruktur
E-002	WireGuard statt Tailscale	Keine externe Abhängigkeit, volle Kontrolle, passt zum bestehenden Hub-and-Spoke-Netzwerk
E-003	Natives Node.js statt Docker für Gateway	5–6× schnellere Antwortzeiten, direkter WireGuard-Zugriff
E-004	Docker-Sandbox für Agenten-Sessions	Isolation gegen Prompt-Injection, kein Agent kann das Host-System kompromittieren
E-005	Alle Modelle über LiteLLM	Ein einziger Endpunkt, API-Key bleibt auf GX10, Budget-Kontrolle
E-007	Passwörter als Dateien, nicht als Umgebungsvariablen	Nicht sichtbar in Prozesslisten oder Docker-Inspect, bessere Zugriffskontrolle
E-008	nftables für Container-Isolation	Kernel-Level-Firewall, Container können keine privaten Netze erreichen
E-009	VPS M statt S	Docker + Sandbox brauchen ausreichend RAM, VPS S riskiert Speicherüberlauf
E-011	Entwicklung auf OC1, kein separater Dev-VPS	Docker-Sandbox bietet ausreichende Isolation, spart Kosten
E-013	Gemischtes Modell-Routing	Lokale Modelle für einfache Aufgaben (kostenlos), Cloud für komplexe (kostenpflichtig)
E-014	Eigener VPS für Web/Git (WEB1)	Trennung der Zuständigkeiten, Gitea nur intern über WireGuard erreichbar
E-015	E-Mail via IMAP, Kalender via Graph API	Provider-agnostisch, funktioniert mit M365 und später mailbox.org
E-016	Team-weite Gitea-Nutzung	4 Agent-Accounts, standardisierte Projektstruktur, Git-Proxy multi-agent-fähig
E-017	Lossless Context Management	DAG-basierte Zusammenfassung statt Sliding-Window, kein Informationsverlust bei langen Gesprächen
E-020	Nemotron-Cascade-2 statt Super-120B	AWQ-INT4 (17 GB statt 62 GB), ~4× schneller (351 vs 80 tok/s), CUDA Graphs funktionieren

Modell-Strategie

Cloud-Primary. Lokaler Fallback.

Die ursprüngliche „lokal-zuerst"-Strategie wurde angepasst, nachdem das lokale Modell im Produktivbetrieb massive Halluzinationen zeigte. Die aktuelle Strategie kombiniert Zuverlässigkeit (Cloud) mit Kosteneffizienz und Datenschutz (lokal).

Primary

GPT-5.4

OpenAI Codex über ChatGPT Teams Abo. Keine Zusatzkosten.

Fallback

Nemotron-Cascade-2

30B Parameter, AWQ-INT4, 17 GB. 351 tok/s auf GX10.

Notfall

Anthropic Direct

Wenn auch GX10 offline. Direkte API ohne LiteLLM-Umweg.

MoE-Architektur

30 Milliarden Parameter. 3 Milliarden aktiv.

Mixture of Experts (MoE) ist eine KI-Architektur bei der pro Anfrage nur ein Teil der Modell-Parameter aktiviert wird. Nemotron-Cascade-2 hat 30 Milliarden Parameter — von denen pro Anfrage nur 3 Milliarden aktiv sind.

Das Ergebnis: Geschwindigkeit und Qualität eines großen Modells bei einem Bruchteil des Rechenaufwands. 351 Tokens pro Sekunde auf dem GX10. Das Vorgängermodell (120B Parameter) schaffte 80 Tokens/s bei 4× dem Speicherbedarf.

LiteLLM

Ein Endpunkt für alle Modelle.

LiteLLM läuft auf GX10 und stellt eine einheitliche API bereit — egal ob lokal oder Cloud. Das bedeutet: kein Modell-Wechsel erfordert Code-Änderungen an den Agenten.

› Einheitliche OpenAI-kompatible API für alle Modelle
› Budget-Limit: max. 50 EUR/Monat für Cloud-Modelle
› Anthropic API-Key verlässt nie den GX10
› Automatisches Fallback wenn ein Modell nicht erreichbar ist

Entwicklungsgeschichte Sicherheitsarchitektur

Architektur ist Absicht,nicht Zufall.

Architecture Decision Records.

Die wichtigsten Grundsatzentscheidungen.

Cloud-Primary. Lokaler Fallback.

30 Milliarden Parameter. 3 Milliarden aktiv.

Ein Endpunkt für alle Modelle.

Architektur ist Absicht,
nicht Zufall.