KI-Grundlagen verstehen

Von "Was ist eine API?" bis "Warum kostet KI unterschiedlich?" – alles erklärt, ohne Fachchinesisch.

Was ist eine API?

Application Programming Interface – die Schnittstelle zwischen Systemen

Eine API (Application Programming Interface) ist eine standardisierte Schnittstelle, über die verschiedene Software-Systeme miteinander kommunizieren können. Sie definiert, welche Anfragen (Requests) ein System akzeptiert und welche Antworten (Responses) es zurückgibt – ohne dass Sie die interne Implementierung kennen müssen.

Technisch gesehen: Eine API ist ein Contract zwischen Client und Server. Der Client sendet strukturierte Anfragen (meist HTTP/REST oder GraphQL), der Server verarbeitet diese und gibt strukturierte Daten zurück (meist JSON oder XML).

Request (Anfrage)

Strukturierte Daten die Sie an die API senden: HTTP-Methode (GET/POST), Endpoint, Parameter, Body, Headers

Processing (Verarbeitung)

Das Backend-System verarbeitet Ihre Anfrage – z.B. Datenbankabfrage, KI-Inferenz, oder Business Logic

Response (Antwort)

Strukturierte Antwort vom Server: Status Code (200, 404, 500), Response Body (JSON/XML), Metadata

Konkrete Beispiel-Anfrage an OpenAI API:

1
POST Request an https://api.openai.com/v1/chat/completions
{"model": "gpt-4", "messages": [{"role": "user", "content": "Fasse diesen Text zusammen"}]}
2
Server verarbeitet Request
OpenAI-Server führt Inferenz auf GPT-4-Modell aus, generiert Response
3
Response mit Status 200 und JSON Body
{"choices": [{"message": {"content": "Zusammenfassung..."}}], "usage": {"total_tokens": 234}}

Warum ist das wichtig?

Automatisierung möglich

APIs erlauben es, KI in Workflows (n8n) einzubinden – ohne manuelles Copy-Paste

Skalierbar & schnell

Hunderte Anfragen pro Minute – vollautomatisch, ohne menschliche Interaktion

Kosteneffizient

Pay-per-use: Sie zahlen nur für das, was Sie wirklich nutzen

Integrierbar

Jede Software kann APIs nutzen – egal ob n8n, eigene App, oder Custom Script

Subscription vs API: Welches Modell für wen?

Zwei völlig unterschiedliche Ansätze mit unterschiedlichen Vor- und Nachteilen

Subscription-Modell

Fester Preis pro Monat, unbegrenzte Nutzung

Beispiele:

  • • ChatGPT Plus: $20/Monat für unbegrenzte GPT-4-Nutzung
  • • Claude Pro: $20/Monat für 5x mehr Nutzung als Free
  • • Google AI Pro: $19.99/Monat für erweiterte Gemini-Nutzung
Vorteile
  • Vorhersehbare Kosten: Immer €20/Monat, egal wie viel Sie nutzen
  • Einfach zu starten: Keine technische Integration nötig
  • Schöne Oberfläche: Chat-UI, Upload von Dateien, Bilder
  • Ideal für Vielnutzer: Wenn Sie >100 Anfragen/Tag machen
Nachteile
  • Keine Automatisierung: Nur manuell über Chat-Interface nutzbar
  • Rate Limits: Oft Limit von 40-50 Nachrichten/3 Stunden
  • Pro Person: Jeder Mitarbeiter braucht eigenes Abo
  • Nicht skalierbar: 10 Mitarbeiter = 10 × $20 = $200/Monat

API-Modell

Pay-per-use, zahlen nur was Sie nutzen

Beispiele:

  • • OpenAI API: $3/1M Input-Tokens (GPT-4)
  • • Anthropic API: $3/1M Input-Tokens (Claude Sonnet)
  • • Google AI API: $0.50/1M Input-Tokens (Gemini Flash)
Vorteile
  • Automatisierbar: Integration in n8n, eigene Software, Workflows
  • Skalierbar: 1 API-Key für unbegrenzt viele Nutzer/Anfragen
  • Kosteneffizient: Bei wenig Nutzung nur €2-5/Monat
  • Flexibel: Wechsel zwischen Modellen, Fine-Tuning, Custom Logic
Nachteile
  • Technisches Setup nötig: API-Keys, Integration, Code
  • Kosten schwanken: Schwer vorherzusagen bei neuen Use Cases
  • Kein UI: Nur raw API – Sie brauchen eine Oberfläche (z.B. n8n)
  • Rate Limits: Je nach Tier (free/paid) unterschiedliche Limits

Entscheidungshilfe: Subscription oder API?

Wählen Sie SUBSCRIPTION, wenn...
  • • Sie KI primär für manuelle Tasks nutzen (Texte schreiben, Recherche)
  • • Sie >100 Anfragen pro Tag machen
  • • Sie KEINE Automatisierung brauchen
  • • Sie schnell loslegen wollen ohne technisches Setup
Wählen Sie API, wenn...
  • • Sie Workflows automatisieren wollen (n8n, eigene Software)
  • • Sie mehrere Mitarbeiter haben (1 API-Key für alle)
  • • Sie schwankende oder geringe Nutzung haben
  • • Sie maximale Flexibilität brauchen
Hybrid-Ansatz (oft optimal!)

Team: Jeder Mitarbeiter hat ChatGPT Plus für individuelle Nutzung ($20/Person) + API für n8n-Workflows, Chatbots, automatische Verarbeitung. Best of both worlds!

Datenflüsse: Wo landen meine Daten?

Die wichtigste Frage für DSGVO-Compliance

DSGVO-kritisch Szenario 1: ChatGPT (Consumer Version)

Sie (Deutschland)
"Schreibe eine E-Mail..."
OpenAI Server (USA)
Data processing in USA
Training Data?
Kann für Training verwendet werden
Problem: Daten verlassen EU, landen auf US-Servern. Schrems II-Problematik. Keine formale DSGVO-Zertifizierung. Daten können für Training genutzt werden (opt-out möglich, aber default opt-in).

DSGVO-konform Szenario 2: ChatGPT Enterprise (EU-Residency)

Sie (Deutschland)
API Request via n8n
OpenAI EU Server
Frankfurt/Amsterdam
Response zurück
Daten bleiben in EU
Lösung: EU Data Residency gewährleistet, dass Ihre Daten die EU nicht verlassen. Keine Verwendung für Training. Business Associate Agreement (BAA) verfügbar.

Maximale Kontrolle Szenario 3: On-Premise KI-Modelle

Sie (Deutschland)
Lokales Modell
Ihr Server (On-Premise)
Daten verlassen nie Ihr Netzwerk
Response
100% lokale Verarbeitung
Maximale Sicherheit: Daten verlassen nie Ihre Infrastruktur. Perfekt für hochsensible Daten. Modelle wie Llama 3.1, Mistral können lokal betrieben werden.

Unsere Empfehlung für DSGVO-Compliance:

Azure OpenAI

EU-Hosting garantiert, Microsoft Azure Trust Center, BAA verfügbar

AWS Bedrock

EU-Regionen verfügbar (Frankfurt), AWS Compliance Programme, vollständige Datenkontrolle

On-Premise Llama

100% lokale Verarbeitung, Open Source, keine Cloud-Abhängigkeit

Tokens & Context Window

Die technischen Grundlagen für Kostenrechnung und Modell-Performance

Tokens sind die atomaren Einheiten, in die LLMs Text zerlegen. Ein Token entspricht ungefähr 0,75 Wörtern in westlichen Sprachen. Wichtig: Tokenisierung ist modell-spezifisch und variiert zwischen Anbietern (GPT-4 nutzt tiktoken, Claude nutzt claude-tokenizer).

Technisch: Tokenizer nutzen Byte-Pair Encoding (BPE) oder ähnliche Algorithmen, um Text in Subword-Einheiten zu zerlegen. Häufige Wörter = 1 Token, seltene Wörter = mehrere Tokens.

Tokenisierung verstehen

Häufige Wörter (1 Token):
"the" → [the] | "ist" → [ist]
Zusammengesetzte Wörter (2-3 Tokens):
"Automatisierung" → [Auto][matisierung]
Sonderzeichen & Code (viele Tokens):
JSON, XML → mehr Tokens als normaler Text
💡 Tipp: Nutzen Sie Tokenizer-Tools (tiktoken für OpenAI) um exakte Counts zu ermitteln

Context Window erklärt

Das Context Window definiert die maximale Anzahl an Tokens, die ein Modell gleichzeitig verarbeiten kann – Input + Output zusammen.

Technisch: Transformers nutzen Attention-Mechanismen, die quadratisch mit der Context-Länge skalieren (O(n²)). Daher: Größere Context Windows = teurere Inferenz.

Typische Größenordnungen:
• Standard: 32K-128K Tokens (~24K-96K Wörter)
• Extended: 200K-1M Tokens (~150K-750K Wörter)
• Long-Context: >1M Tokens (ganze Codebases)

Context Window Strategien

Vollständiger Context

Gesamtes Dokument in Context laden

✓ Kein Informationsverlust
✗ Teuer bei großen Dokumenten
Chunking & Sliding Window

Text in Blöcke teilen, sequenziell verarbeiten

✓ Unbegrenzte Dokumentgröße
✗ Kein globaler Context
RAG (Retrieval-Augmented)

Nur relevante Chunks laden

✓ Kosteneffizient & präzise
✗ Benötigt Vector DB Setup

Kosten-Falle: Unnötiger Context

Jedes Token im Context kostet – auch wenn es nicht relevant ist. Prüfen Sie: Brauchen Sie wirklich 100K Tokens Context, oder reichen 5K gezielte?

Performance: Context Caching

Moderne APIs cachen wiederholten Context (System-Prompts, lange Dokumente). Erste Anfrage teuer, weitere 90% günstiger – kritisch für Produktiv-Systeme.

Preismodelle verstehen

Wie KI-Kosten strukturiert sind – unabhängig vom konkreten Anbieter

KI-APIs nutzen typischerweise ein Token-basiertes Pricing: Sie zahlen separat für Input-Tokens (Text den Sie senden) und Output-Tokens (generierte Antwort). Output kostet mehr, da die Generierung rechenintensiver ist als das Lesen.

Modell-Kategorien

Premium-Modelle
Höchste Qualität, teuerste Option. Für komplexe Reasoning-Tasks.
Standard-Modelle
Gutes Preis-Leistungs-Verhältnis. Für die meisten Produktiv-Workflows.
Budget-Modelle
Günstigste Option. Für einfache, hochvolumige Tasks.

Pricing-Faktoren

Modellgröße: Größere Modelle = höhere Kosten
Context Window: Mehr Context = teurer pro Token
Input vs Output: Output 3-10x teurer als Input
Caching: Cached Input deutlich günstiger

Typische Größenordnungen

Premium
~$10-30 pro 1M Output-Tokens
Standard
~$1-5 pro 1M Output-Tokens
Budget
~$0.10-1 pro 1M Output-Tokens
* Werte ändern sich ständig – Prinzip bleibt gleich

Warum Preise sich ständig ändern

Technologische Entwicklung

Neue Modell-Generationen sind effizienter. Was heute Premium ist, wird morgen Standard-Preis. Beispiel: GPT-4-Klasse kostete 2023 noch $60/1M Tokens, heute unter $5/1M.

Marktwettbewerb

OpenAI, Anthropic, Google konkurrieren → Preise sinken kontinuierlich. Open-Source-Modelle (Llama, Mistral) drücken zusätzlich auf Preise.

Wichtiger als konkrete Preise: Verstehen Sie die Strukturen (Input/Output, Caching, Context), dann können Sie jedes neue Modell schnell einschätzen.

Optimierung #1: Modell-Routing

Nutzen Sie verschiedene Modelle für verschiedene Tasks. Premium für komplexe Analyse, Budget für einfache Klassifikation. Spart 60-80% Kosten.

Optimierung #2: Prompt Caching

System-Prompts und Context werden gecached – Sie zahlen nur einmal für wiederholten Input. Kritisch für RAG-Systeme und Chatbots.

Halluzinationen: Wenn KI erfindet statt antwortet

Das größte Problem von Large Language Models – und wie Sie damit umgehen

KI-Modelle "halluzinieren" manchmal – sie erfinden plausibel klingende, aber falsche Informationen. Das passiert, weil sie auf Wahrscheinlichkeiten basieren, nicht auf Fakten-Datenbanken.

Beispiel einer Halluzination:

Prompt:
"Was ist die Bestellnummer für Rechnung R-2024-1234?"
KI-Antwort (FALSCH!):
"Die Bestellnummer ist B-2024-5678 mit einem Betrag von €1.234,56."
Problem: Bestellnummer & Betrag ERFUNDEN!

Warum passiert das?

Probabilistisch, nicht faktisch

LLMs generieren Text basierend auf Wahrscheinlichkeiten aus Trainingsdaten – sie haben kein Verständnis von "wahr" oder "falsch".

Completion-Druck

Das Modell versucht immer eine Antwort zu generieren – auch wenn es die Antwort nicht kennt. Statt "Ich weiß es nicht" wird eine plausible Antwort erfunden.

Wie Sie Halluzinationen vermeiden:

RAG (Retrieval-Augmented Generation)

Statt KI raten zu lassen: Geben Sie ihr die Fakten! RAG holt relevante Dokumente aus Ihrer Datenbank und füttert sie als Context.

  • Fakten statt Raten
  • 90% weniger Halluzinationen
  • Perfekt für Firmen-Wikis

Structured Outputs / JSON Mode

Erzwingen Sie strukturierte Antworten (z.B. JSON). KI kann nur aus vorgegebenen Werten wählen – keine freien Erfindungen möglich.

  • Nur valide Werte
  • Type-Safe
  • Perfekt für Automatisierung

AI Tools / Function Calling

Statt zu raten: KI ruft Ihre API auf! Bei 'Bestellnummer für R-2024-1234' ruft KI Ihre Datenbank-API – 100% korrekt!

  • Echte Datenbank-Abfragen
  • Keine Erfindungen
  • Production-Ready

Prompt Engineering

Instruktionen wie 'Wenn du die Antwort nicht weißt, sage: Ich weiß es nicht' reduzieren Halluzinationen deutlich.

  • Explizite Grenzen setzen
  • Unsicherheit erlauben
  • Transparenz fördern

Best Practice: Multi-Layer Approach

Kombinieren Sie mehrere Methoden für maximale Zuverlässigkeit:

  1. 1.RAG für Kontext (Fakten aus Ihrer Datenbank)
  2. 2.Structured Outputs (erzwingt valide Formate)
  3. 3.AI Tools für kritische Daten (z.B. Preise, IDs, Beträge)
  4. 4.Human-in-the-Loop für finale Freigabe (bei kritischen Prozessen)

Bereit für Ihre KI-Automatisierung?

Jetzt wissen Sie die Grundlagen. Lassen Sie uns gemeinsam Ihre ersten Workflows bauen.