Begriffe, Konzepte, Kontext
A1
Vier Grundbegriffe
Modell
Das trainierte KI-System — der eigentliche „Denker". Es erzeugt aus einer Eingabe eine Antwort durch probabilistisches Urteilen, nicht durch fest verdrahtete Regeln. Modelle wie Claude (Anthropic), GPT (OpenAI) oder Gemini (Google) unterscheiden sich in Stärke, Spezialisierung und Kontext-Kapazität, folgen aber demselben Prinzip.
Agent
Ein Modell, das in Schritten arbeitet. Es nutzt Werkzeuge, prüft Zwischenergebnisse, korrigiert seinen Kurs und geht weiter, bis eine Aufgabe erledigt ist — oder bis ein Human-in-the-Loop-Gate greift. Der Unterschied zum einfachen Chat: der Agent entscheidet selbst, was als Nächstes nötig ist.
Kontext
Alles, was das Modell für die Aufgabe vor sich hat: Zielbeschreibung, Regeln, Dokumente, frühere Entscheidungen, laufende Gesprächsverläufe. Die Qualität des Kontexts entscheidet über die Qualität der Antwort — meist stärker als die Wahl des Modells. Kontext ist das „Arbeitsgedächtnis" je Schritt; er wird nicht dauerhaft gespeichert, sondern per Schritt übergeben.
Harness
Das Gerüst um das Modell herum: Regeln, Werkzeuge, abgelegtes Wissen und Leitplanken. Ein Harness macht einen Agenten verlässlich und wiederholbar, weil er vorgibt, was der Agent darf, wie er vorgeht und welche Quellen er nutzt. Ohne Harness ist ein Modell ein mächtiges, aber ungeführtes Werkzeug.
A2
Claude Code, Codex CLI, Gemini — was ist das?

Hinter diesen Namen steckt dasselbe Prinzip in drei Ökosystemen: ein Modell, eingebettet in ein Werkzeug, das selbstständig Aufgaben übernimmt.

Claude Code (Anthropic)
Eine Arbeitsumgebung im Terminal, in der ein Claude-Modell als Agent eigenständig Dateien liest und schreibt, Werkzeuge bedient und mehrschrittige Aufgaben ausführt. Der Name steht heute oft stellvertretend für KI-Agenten-Arbeit jenseits des Chattens.
Codex CLI (OpenAI)
Das Gegenstück auf Basis der GPT-Modelle: ein Kommandozeilen-Agent für Code- und Analyse-Aufgaben — dieselbe Arbeitsweise im OpenAI-Ökosystem.
Gemini (Google)
Googles Modellfamilie samt eigener Agenten- und Entwicklerwerkzeuge. Besonders stark bei sehr langen Kontexten (bis 2 Mio. Tokens) und Multimodalität: Text, Bild, Audio und Video in einem Schritt.

Die Wahl zwischen den drei Ökosystemen ist primär eine Governance- und Spezialisierungsfrage, keine Qualitätsfrage. Multi-Modell-Routing — je Aufgabe das passende Modell wählen — ist Stand der Praxis.

A3
Agentenorchestrierung — warum mehrere Agenten?

Ein einzelner Agent erledigt eine Aufgabe verlässlich. Viele parallele Aufgaben überfordern ihn: der Kontext wird zu voll, die Qualität fällt ab. Orchestrierung verteilt Arbeit auf spezialisierte Agenten und führt die Ergebnisse zusammen — ähnlich einem gut geführten Team mit klarer Aufgabenteilung.

  • Spezialisierung: jeder Agent bekommt nur seinen Ausschnitt, mit dem dafür nötigen Kontext
  • Parallelität: mehrere Agenten arbeiten gleichzeitig, was Durchlaufzeiten reduziert
  • Vier-Augen-Prinzip: ein Agent prüft, was ein anderer gebaut hat — strukturierte Gegenkontrolle
  • Kostenkontrolle: einfache Aufgaben laufen auf günstigeren Modellen; komplexe bekommen das stärkste Modell
Voraussetzung

Funktionierende Orchestrierung braucht Beobachtbarkeit: wer läuft warum, wie lange, mit welchen Kosten — als Historie und in Echtzeit. Zombie-Agenten müssen erkennbar und beendbar sein. Ohne das wird aus Orchestrierung Chaos.

A4
Deterministische vs. probabilistische Leitplanken
Deterministisch
Feste Regeln, die immer gleich greifen: Rechteprüfungen, Schemata, automatische Tests, Freigabe-Gates. Vorhersagbar und prüfbar — man kann beweisen, dass sie gegriffen haben.
Probabilistisch
Das Urteil des Modells selbst: einschätzen, abwägen, formulieren. Flexible Stärke bei Verständnis und sprachlicher Qualität — aber nicht garantiert reproduzierbar.
Wofür welche

Deterministisch für alles, das sicher, nachvollziehbar und auditierbar sein muss: Datenzugriff, Freigaben, Compliance-Checks. Probabilistisch für Verständnis und Sprache: Analyse, Entwurf, Dialog, Zusammenfassung.

Gute Systeme kombinieren beides. Transparenz — was ist deterministisch, was probabilistisch — ist selbst ein Governance-Element.

A5
Lokale vs. Cloud-Agenten
Lokal
Agenten laufen auf eigener Hardware. Daten verlassen das Haus nicht — die richtige Wahl für vertrauliche Inhalte. Kapazität begrenzt durch die verfügbare Maschine. Bekannte Wege: Open-Weight-Modelle (Qwen3, Llama, DeepSeek) über Ollama, LM Studio oder MLX auf Apple Silicon.
Cloud
Agenten laufen beim Anbieter. Zugriff auf die jeweils stärksten Modelle; Daten-Governance zwingend zu klären. Die drei führenden Familien: Anthropic Claude Opus 4.8, OpenAI GPT-5.5, Google Gemini 3.1 Pro.

Faustregel: Vertrauliches lokal oder nur unter geklärter Cloud-Governance mit aktivem Zero-Data-Retention. Alltägliche, unkritische Arbeit dort, wo das beste Ergebnis pro Aufwand herauskommt.

A6
Mythos „Agenten lernen" + Kontext-Grundlagen
Häufige Annahme

Im Alltag wirkt es wie Lernen — tatsächlich wächst der Kontext, auf dem Modellinferenz läuft. Das Modell wird zur Laufzeit nicht trainiert. Bessere Ergebnisse entstehen durch besseren Kontext.

Menge und Wirkung: Mehr Kontext ist nicht automatisch besser. Zu viel oder irrelevanter Kontext führt zu Ergebnis-Degradierung, Kontextvermüllung und nötiger Komprimierung mit Verlustrisiko.

Größenordnung (Heuristik): Mit ca. 200.000 Tokens kommt man im Projektmanagement sehr weit. 1 Mio. Tokens werden auch in der Softwareentwicklung großer Projekte schnell zur Herausforderung.

Laufzeit-Kontextbeschaffung: Agenten beschaffen zur Laufzeit gezielt weiteren Kontext, sodass die Nutzung des Kontextfensters über Agentenschwärme hinweg optimiert wird — das ist der Kern moderner Orchestrierung.

Kontext-Kurator, Impulsgeber, Entscheider
B1
Der Engpass verschiebt sich

Wenn Agenten die laufende Mechanik eines Projekts übernehmen — Statusberichte, Recherche, Entwürfe, Klassifikation, Artefakte — verschiebt sich der Engpass. Er liegt dann weniger im Schreiben, Zusammenfassen oder Formatieren und stärker im Entscheiden, Gewichten und Einordnen. Die Arbeit der Menschen wird damit abstrakter und zugleich wertvoller.

B2
Kontext-Kuratierung als Arbeitsleistung

Mitarbeitende pflegen Bedeutung — Ziele, Entscheidungen, Begriffe, Risiken, offene Klärungen — als gepflegten Context Layer. Diese Kontext-Kuratierung ist eine echte Arbeitsleistung; sie ist nicht nur für Führungskräfte. Menschen, die aus ihrer direkten Erfahrung Beobachtungen einspeisen, liefern Kontext, der einer abstrakten Planungsrunde sonst fehlen würde.

Aus diesem kuratierten Kontext bildet der Mensch die Synthese: Urteil, Richtung, Impuls. Dabei wirken eigene Werte mit. Für eine Organisation heißt das: die Werte des einzelnen Menschen und die Werte des Unternehmens müssen zusammenpassen, damit die Synthese trägt.

B3
Vier Wirkformen

Projektmanager führen Kontext synchron und asynchron herbei, transformieren ihn zu Entscheidungen, geben Impulse und wirken auf die Organisation. Jede dieser vier Formen zahlt nach vorn auf die Wertschöpfung ein.

  • Herbeiführen: relevanten Kontext aus Gesprächen, Dokumenten, Entscheidungen zusammenführen
  • Transformieren: Kontext zu Entscheidungen verdichten — Synthese als menschliche Kernleistung
  • Impulse geben: Richtung setzen, Werte einbringen, Fragen stellen, die Agenten nicht stellen
  • Auf die Organisation wirken: Justierungen, Korrekturen, Eskalationen — Justierung ist Wertschöpfungs-Beitrag, keine Bremse

Die Mensch-Agent-Arbeitsteilung ist abgestuft: hoch reversible, gering riskante Schritte dürfen Agenten autonom; irreversible oder compliance-kritische bleiben am Menschen. Im typischen Betrieb erzeugt der Agent den Entwurf, der Mensch gibt das Go am Gate.

B4
Viele Wirkungsfäden gleichzeitig

Weil die Mechanik getragen wird, kann ein Mensch viele Linien gleichzeitig halten. Das Selbstverständnis verschiebt sich vom Abarbeiten einzelner Aufgaben zum gleichzeitigen Überblick über mehrere Wirkungsfäden — ein Zustand, den erfahrene Projektmanager als „den Laden zusammenhalten" kennen.

Wer einen Wirkungsfaden übernimmt, trägt Verantwortung, bis er ihn bewusst übergibt. Das Cockpit (Stufe 4, Sektion E) macht sichtbar, wer wo Impulse setzt und welche Fäden wie laufen.

B5
Persönlichkeit statt Rolle

Es verschiebt sich nicht die formale Rolle, sondern wo die Persönlichkeit wirkt. Die Charakterzüge, die gute Projektmanager auszeichneten — Durchblick, klare Einschätzung, Überblick, Gefühl für Prioritäten und Menschen — wirken jetzt als Mensch unmittelbar in die Organisation. Der Wirkungsgrad bleibt, wird aber an die Person selbst gebunden.

Einladung

Für Menschen mit diesen Stärken lohnt es sich, sich auf Agentic AI einzulassen. Der Einstieg darf unperfekt beginnen; entscheidend ist, dass echte Arbeit darüber läuft.

B6
KI-Text, AI-Slop & die Ökonomie des Kontexts

KI-generierter Text ist häufig noch ‚AI-Slop': sprachlich glatt, aber generisch, beliebig, ohne Geschmack für Ästhetik. Agenten haben kein Gespür für Form — Prägnanz, Rhythmus, Auslassung sind menschliche Urteile. Das ist eine reale Qualitätsgrenze.

Zugleich produzieren wir mehr Text, als wir lesen können. Wenn Entwürfe, Berichte und Zusammenfassungen auf Knopfdruck entstehen, überholt die Produktion die Rezeption. Der Engpass wandert vom Schreiben zum Lesen — und zur Frage, was überhaupt gelesen werden muss.

Die Konsequenz: KI-generierten Text will man KI-getrieben weiterverarbeiten, statt ihn selbst Zeile für Zeile zu lesen. Viel Geschriebenes und Publiziertes ist ohnehin ein verlustbehaftetes Kontextaustauschformat — lange Prosa, die eine kleine Menge an Bedeutung transportiert. Für Maschinen wie für Menschen zählt die Bedeutung, nicht die Wortzahl.

Hinzu kommt der Intent hinter einer Publikation. Ein veröffentlichter Text dient nicht zwangsläufig dem Ziel, den Kontext des Lesers bestmöglich anzureichern; oft soll er die publizierende Person oder Organisation in günstigem Licht zeigen. Wer Text als Kontextquelle nutzt, liest ihn deshalb gegen den Strich: Welche Bedeutung steckt belegbar darin — und was ist Selbstdarstellung?

Randnotiz

KI-getriebenes Projektmanagement ohne KI einzuführen, wäre, als erkläre man den Buchdruck auf Steintafeln — die Einführungsmethode widerspricht dem, was sie einführt. Der Weg in die KI-gestützte Arbeit ist selbst KI-gestützt: erlebt, statt nur beschrieben.

Was geklärt sein muss — und wie man es dynamisch hält

Disclaimer (Pflicht): Keine Rechtsberatung. Öffentlich zugängliche Anbieter- und Regulierungs-Informationen, Stand Juni 2026. Einzelfallprüfung nötig; verbindliche Beurteilung durch qualifizierten Anwalt (IT-Recht, DSGVO, Compliance) vor produktivem Einsatz mit personenbezogenen oder vertraulichen Daten.

C1
Grauzone und zwei Ausschläge

Viele Organisationen agieren in einer Grauzone der KI-Nutzung: reaktiv, undefiniert, inkonsistent, schlecht auditierbar. Die Grauzone ist für sich schon riskant. Es gibt zwei ungesunde Ausschläge:

  • Über-Adoption / Schatten-KI: unkontrollierter Wildwuchs, Daten- und Compliance-Risiken, Reputationsschäden
  • Über-Blockade / Lähmung: pauschales Verbot, Produktivitäts- und Wettbewerbsverlust, fehlende Kompetenzentwicklung
C2
Dynamische Governance

Dynamische Governance ist kein einmaliges Regelwerk, sondern ein mitwachsender Rahmen — analog zum mitwachsenden Projektplan.

  • Szenarien durchdenken: Was passiert, wenn X eintritt? Szenariengraphen für Steuerung und Entscheidung.
  • Reversibilität: Mechanismen, mit denen Entscheidungen wieder einzufangen sind.
  • Klare Gates: Wo muss ein Mensch entscheiden? Bewusst zeitaufwendige Freigaben, wo die Abwägung schon getroffen ist.
  • Geheimer Kontext: Darf Existenz/Titel/Ansprechpartner genannt werden? Abstraktionsebenen; befragbares LLM, das nur geheimhaltungswahrende Antworten gibt.
  • Rollen ohne starre Linien: Nicht auf Hierarchien und Teams-Kanäle aufbauen, sondern auf semantischen Zugriffskonzepten.
C3
Daten-Retention je Cloud-Anbieter
Anbieter Standard Zero-Data-Retention (ZDR)
OpenAI API ~30 Tage Abuse-Monitoring, kein Training auf Antrag (Business/Enterprise)
Anthropic Claude API 7 Tage (30 Tage opt-in), kein Training auf Antrag (Commercial-Org-Keys)
Google Vertex/Gemini kein Logging bei Invoiced Billing, kein Training auf Antrag, EU-Residenz konfigurierbar
Microsoft Azure OpenAI kein Training; Abuse-Monitoring 30 Tage nur via Limited-Access-Programm

Enterprise-/Org-Lizenzen geben Zugang zu ZDR, AVV/DPA/BAA, SSO/SCIM, Audit-Logs, SOC-2, wählbarer Datenresidenz und floating Seat-Kontingenten — oft der einzige Weg zu den rechtlich benötigten Garantien.

C4
DSGVO (Kurzüberblick)
  • AVV nach Art. 28 zwingend; Bußgeld bis 20 Mio. € / 4 % Umsatz bei Verstoß
  • Rollenklarheit: Verarbeiter vs. Verantwortlicher klären; bei Google Vertex ist Google Verarbeiter
  • Drittlandtransfer: EU-US DPF (OpenAI/Anthropic/Google/Microsoft gelistet) oder SCC + Transfer-Impact-Assessment
  • Rechtsgrundlage: Art. 6 / Art. 9; Subprozessoren; Löschkonzept; DSFA (Art. 35); TOM (Art. 32)
C5
EU AI Act (relevante Pflichten)
  • KI-Kompetenz / AI Literacy (Art. 4): gilt seit 02.02.2025; Schulungsnachweis für Mitarbeitende
  • Transparenzpflichten (Art. 50): ab 02.08.2026 — Kennzeichnung von Chatbots, Deepfakes
  • Betreiberpflichten Hochrisiko (Art. 26): Konformitätsbewertung, Dokumentation, Logging
  • Verbotene Praktiken (Art. 5): soziales Scoring, unterschwellige Beeinflussung u. a.

Weitere relevante Gesetze für eine große deutsche Organisation: BetrVG, NIS2, GeschGehG, Urheberrecht/Lizenzrecht. Volle Anwendung EU AI Act: 02.08.2026.

C6
Anwalts-Prüfpunkte

Vor produktivem Einsatz mit personenbezogenen oder vertraulichen Daten durch qualifizierten Anwalt (IT-Recht, DSGVO, Compliance) prüfen lassen:

  • AVV-Wirksamkeit und Verarbeitungsumfang
  • Anbieterrolle (Verarbeiter vs. Verantwortlicher)
  • Drittlandtransfer (EU-US DPF / SCC + TIA)
  • Tatsächlich aktivierter Retention-Tier
  • Rechtsgrundlage und Zweckbindung
  • Subprozessoren und Datenresidenz
  • DSFA-Pflicht nach Art. 35 DSGVO
  • EU-AI-Act-Risikoklasse
  • KI-Kompetenz-Nachweis (Art. 4 EU AI Act)
  • Beschäftigtendatenschutz und Betriebsrat (BetrVG)
  • TOM und IT-Sicherheit (NIS2)
  • Geheimnis- und Berufsrecht (§ 203 StGB), Urheber- und Lizenzrecht
C7
Inferenz-Topologie & Datenpfade

Zwei Entscheidungen bestimmen den Datenpfad, und sie sind voneinander unabhängig: wo der Agent läuft und wo das Modell rechnet. Wer beides zusammenwirft, übersieht, dass schon innerhalb des Cloud-Einsatzes sehr unterschiedliche Pfade möglich sind.

Lokaler Agent, lokales Modell
Orchestrierung und Inferenz laufen auf eigener Hardware. Vertraulicher Kontext verlässt das Haus nicht. Grenze: die Güte des lokalen Modells.
Lokaler Agent, Cloud-Modell
Der Agent steuert lokal; in die Cloud geht je Schritt nur der einzelne Prompt — genau das, was der Arbeitsschritt braucht, nicht der gesamte Projektkontext. So lassen sich starke Cloud-Modelle nutzen und der Egress auf das Nötige begrenzen.
Agent in der Cloud
Der gesamte Arbeitskontext der Aufgabe liegt beim Anbieter, nicht nur der einzelne Prompt. Bequem und leistungsstark, aber der größte Egress — nur unter geklärter Governance.
Retention quer zur Topologie

Quer zu dieser Topologie liegt das Retention-Spektrum des Anbieters: von Zero-Data-Retention (null Tage Vorhaltung) über kurze Abuse-Monitoring-Fenster bis zu 30 Tagen oder mehr. Für die Datenklasse zählt der real konfigurierte Tier, nicht der Default. Topologie und Retention zusammen ergeben den zulässigen Datenpfad — ein lokaler Agent mit Cloud-Modell unter Zero-Retention ist ein anderer Pfad als ein Cloud-Agent ohne ZDR, auch beim selben Modell.

Als dritter Pfad neben rein lokal und Hyperscaler-Cloud werden EU-souveräne Hoster evaluiert: deutsche und europäische Anbieter — etwa IONOS mit seinem AI Model Hub, dazu weitere DSGVO-konforme, behörden-taugliche Provider — betreiben Inferenz innerhalb der EU mit klarer Auftragsverarbeitung. Sie tragen für Klassen, die nicht lokal bleiben müssen, aber den Hyperscaler-Pfad meiden sollen. Diese Pfade sind zu evaluieren, nicht vorauszusetzen — Datenfluss, Retention, Vertragslage und Eignung je Datenklasse gehören geprüft (im Projektplan als Arbeitspaket INF-8 geführt). Die rechtliche Letztbeurteilung bleibt bei qualifizierten Anwälten.

Lokal und Cloud — was läuft wo

Disclaimer: Recherchierte Referenzwerte, Stand Juni 2026. Keine eigenen Messungen; Werte können variieren. Die Modell-Landschaft entwickelt sich schnell; vor Entscheidungen aktuellen Stand prüfen.

D1
Lokale Modelle (Apple-Silicon-Klasse, ca. 128 GB unified memory)
Kategorie Stärke lokal Typische Modelle
Text / Reasoning stark Qwen3-Familie (MoE & dense), Llama 3.3 70B, DeepSeek-R1-Distill
Speech-to-Text sehr stark, nahe Echtzeit NVIDIA Parakeet TDT 0.6B v3 (via parakeet-mlx)
Text-to-Speech echtzeitfähig Kokoro-82M (Alltag), Orpheus-3B (Qualität/Cloning)
Vision / Multimodal gut, interaktiv Qwen3-VL 32B / 8B / 30B-A3B MoE
Bildgenerierung eingeschränkt FLUX.1-dev, SDXL 1.0 — Sekunden bis ~1 Min pro Bild
Videogenerierung eingeschränkt (Offline-Batches) Wan 2.1/2.2 — Minuten bis Stunden pro Clip

MLX ist auf Apple Silicon meist die schnellste Laufzeit. MoE-Modelle sind schneller als gleich große dense-Modelle. Für den PM-Alltag reichen kleinere, schnelle Modelle; für komplexe Analyse lohnt sich ein großes Modell auch mit längerer Wartezeit.

D2
Cloud-Modelle (best-in-class je Kategorie, governance-gebunden)
Kategorie Führende Modelle Empfehlung
Text / Reasoning GPT-5.5 (OpenAI) · Claude Opus 4.8 (Anthropic) · Gemini 3.1 Pro (Google) Claude für Code/Agenten/Texte · GPT-5.5 für Reasoning · Gemini für lange Kontexte
Speech-to-Text Deepgram Nova-3/Flux · OpenAI gpt-4o-transcribe · ElevenLabs Scribe v2 Genauigkeit + Self-Hosting: Deepgram; Komfort unter ZDR: OpenAI
Text-to-Speech ElevenLabs v3/Flash · Cartesia Sonic · OpenAI Realtime Studio: ElevenLabs; niedrigste Latenz: Cartesia; Live-Dialog: OpenAI Realtime
Vision Gemini 3 Pro/Flash · GPT-5 Vision · Claude Opus Vision Dokumente/OCR: Gemini 3; agentisch: GPT-5 / Claude
Bildgenerierung GPT Image 2 · FLUX.2 (Open Weight) · Imagen 4 Default unter ZDR: GPT Image 2; Datenkontrolle: FLUX.2 selbst hosten
Videogenerierung Veo 3.1 (Google) · Runway Gen-4.5 Default mit Ton: Veo 3.1; Brand-Kontrolle: Runway
Praktischer Hinweis

Für komplexe Fragestellungen das stärkste Modell mit höchstem Effort — die Wartezeit lohnt sich. Für Umsetzung und Detailplanung reichen schwächere Modelle.

Governance-Kopplung: Cloud nur über Anbieter mit geklärter Inhalts-Governance. Vertrauliches nur mit aktivem ZDR oder lokal.

Evolutionsstufen, Cockpit, Graphen, Skalierung
E1
Fünf Evolutionsstufen

Die Einführung von KI im Projektmanagement folgt keinem einmaligen Sprung, sondern einer Leiter aus Stufen. Jede Stufe setzt auf der vorherigen auf.

  1. Einzel-Prompting: Modelle ad hoc im Frontend, einzelne Prompts. Niedriger Einstieg, wenig Reproduzierbarkeit.
  2. Harness & Kontext-Engineering: Strukturierter Kontext, Regeln, Skills, Arbeitsstränge. Arbeit wird reproduzierbar und übertragbar.
  3. Companion & geführte Dialoge: Sprache, Transkript, Canvas und Panels. Meetings und Entscheidungen werden als lebendiges Arbeitsgedächtnis erfasst.
  4. Cockpit / Agenten-OS: Orchestrierung mehrerer Agenten, Beobachtbarkeit im Cockpit, KPI-Gates, minimale HITL-Last.
  5. Laufzeit-optimierte Ausführungsgraphen & Agentenschwärme: Selbst-rekonfigurierende Graphen, dynamische Umpriorisierung. Heute nur benannt.
Verortung

Einstieg für eine neue PM-Organisation typischerweise Stufe 1–2. Stufe 3 sobald geführte Dialoge und Transkription etabliert. Stufe 4 wenn Orchestrierung und Beobachtbarkeit gezielt gebaut werden. Stufe 5 ist heute Forschungsfront.

E2
Cockpit / Agenten-OS

Das Cockpit ist die Schaltzentrale der Stufe 4: ein zentrales Bewusstsein dafür, welche Agenten laufen, in welchem Kontext sie arbeiten, wer sie warum gestartet hat, wie lange sie laufen und was sie kosten. Es macht Agenten sichtbar und beendbar.

Der Begriff Agenten-OS beschreibt das Gesamtsystem: Harness, Orchestrierung, Cockpit und Context Layer als integriertes Betriebssystem für KI-gestützte Arbeit. Jede Organisation auf Stufe 4 betreibt implizit eines — ob explizit gestaltet oder ad hoc gewachsen ist die Frage.

E3
Laufzeit-optimierte Ausführungsgraphen

Agenten-Orchestrierung auf Stufe 4 folgt einem festen Graphen: Plan → Ausführung → Gate → nächster Schritt. Auf Stufe 5 rekonfiguriert sich dieser Graph zur Laufzeit: Subgraphen werden erzeugt, priorisiert, pausiert oder abgebrochen, je nach aktuellem Kontext und KPIs.

Kernbotschaft

Der eigentliche Hebel: wie gut beschrieben ist, was herauskommen soll — wo und wie viel HITL nötig ist — und wie gut der zur Laufzeit optimierte Ausführungsgraph ist. Die Modell- oder Inferenzgeschwindigkeit ist selten der Engpass.

E4
Skalierung — Token und deterministische Tools

Orchestrierungs-Tokenverbrauch wächst mit Kontext- und Harness-Größe. Linearisierung durch deterministische Tools, die das Kontextfenster entlasten:

  • RAG (Retrieval-Augmented Generation): gezieltes Abrufen relevanter Dokumentabschnitte statt des gesamten Korpus
  • Graph- und Vektor-Datenbanken: strukturierte Suche und semantische Nähe in Millisekunden, ohne Tokenverbrauch
  • BM25: klassisches Keyword-Retrieval — schnell, deterministisch, für exakte Treffer stark
  • Memory-Fading: älterer Kontext komprimiert oder ausgelagert; relevanter Kontext bleibt im Fenster

Diese Tools ersetzen nicht das Modell, sondern entlasten das Kontextfenster — dasselbe Modell kann damit mehr Projektkomplexität ohne Qualitätsverlust verarbeiten.