KI-Grundlagen verstehen
Von "Was ist eine API?" bis "Warum kostet KI unterschiedlich?" – alles erklärt, ohne Fachchinesisch.
Was ist eine API?
Application Programming Interface – die Schnittstelle zwischen Systemen
Eine API (Application Programming Interface) ist eine standardisierte Schnittstelle, über die verschiedene Software-Systeme miteinander kommunizieren können. Sie definiert, welche Anfragen (Requests) ein System akzeptiert und welche Antworten (Responses) es zurückgibt – ohne dass Sie die interne Implementierung kennen müssen.
Technisch gesehen: Eine API ist ein Contract zwischen Client und Server. Der Client sendet strukturierte Anfragen (meist HTTP/REST oder GraphQL), der Server verarbeitet diese und gibt strukturierte Daten zurück (meist JSON oder XML).
Request (Anfrage)
Strukturierte Daten die Sie an die API senden: HTTP-Methode (GET/POST), Endpoint, Parameter, Body, Headers
Processing (Verarbeitung)
Das Backend-System verarbeitet Ihre Anfrage – z.B. Datenbankabfrage, KI-Inferenz, oder Business Logic
Response (Antwort)
Strukturierte Antwort vom Server: Status Code (200, 404, 500), Response Body (JSON/XML), Metadata
Konkrete Beispiel-Anfrage an OpenAI API:
Warum ist das wichtig?
Automatisierung möglich
APIs erlauben es, KI in Workflows (n8n) einzubinden – ohne manuelles Copy-Paste
Skalierbar & schnell
Hunderte Anfragen pro Minute – vollautomatisch, ohne menschliche Interaktion
Kosteneffizient
Pay-per-use: Sie zahlen nur für das, was Sie wirklich nutzen
Integrierbar
Jede Software kann APIs nutzen – egal ob n8n, eigene App, oder Custom Script
Subscription vs API: Welches Modell für wen?
Zwei völlig unterschiedliche Ansätze mit unterschiedlichen Vor- und Nachteilen
Subscription-Modell
Fester Preis pro Monat, unbegrenzte Nutzung
Beispiele:
- • ChatGPT Plus: $20/Monat für unbegrenzte GPT-4-Nutzung
- • Claude Pro: $20/Monat für 5x mehr Nutzung als Free
- • Google AI Pro: $19.99/Monat für erweiterte Gemini-Nutzung
- Vorhersehbare Kosten: Immer €20/Monat, egal wie viel Sie nutzen
- Einfach zu starten: Keine technische Integration nötig
- Schöne Oberfläche: Chat-UI, Upload von Dateien, Bilder
- Ideal für Vielnutzer: Wenn Sie >100 Anfragen/Tag machen
- Keine Automatisierung: Nur manuell über Chat-Interface nutzbar
- Rate Limits: Oft Limit von 40-50 Nachrichten/3 Stunden
- Pro Person: Jeder Mitarbeiter braucht eigenes Abo
- Nicht skalierbar: 10 Mitarbeiter = 10 × $20 = $200/Monat
API-Modell
Pay-per-use, zahlen nur was Sie nutzen
Beispiele:
- • OpenAI API: $3/1M Input-Tokens (GPT-4)
- • Anthropic API: $3/1M Input-Tokens (Claude Sonnet)
- • Google AI API: $0.50/1M Input-Tokens (Gemini Flash)
- Automatisierbar: Integration in n8n, eigene Software, Workflows
- Skalierbar: 1 API-Key für unbegrenzt viele Nutzer/Anfragen
- Kosteneffizient: Bei wenig Nutzung nur €2-5/Monat
- Flexibel: Wechsel zwischen Modellen, Fine-Tuning, Custom Logic
- Technisches Setup nötig: API-Keys, Integration, Code
- Kosten schwanken: Schwer vorherzusagen bei neuen Use Cases
- Kein UI: Nur raw API – Sie brauchen eine Oberfläche (z.B. n8n)
- Rate Limits: Je nach Tier (free/paid) unterschiedliche Limits
Entscheidungshilfe: Subscription oder API?
- • Sie KI primär für manuelle Tasks nutzen (Texte schreiben, Recherche)
- • Sie >100 Anfragen pro Tag machen
- • Sie KEINE Automatisierung brauchen
- • Sie schnell loslegen wollen ohne technisches Setup
- • Sie Workflows automatisieren wollen (n8n, eigene Software)
- • Sie mehrere Mitarbeiter haben (1 API-Key für alle)
- • Sie schwankende oder geringe Nutzung haben
- • Sie maximale Flexibilität brauchen
Team: Jeder Mitarbeiter hat ChatGPT Plus für individuelle Nutzung ($20/Person) + API für n8n-Workflows, Chatbots, automatische Verarbeitung. Best of both worlds!
Datenflüsse: Wo landen meine Daten?
Die wichtigste Frage für DSGVO-Compliance
DSGVO-kritisch Szenario 1: ChatGPT (Consumer Version)
DSGVO-konform Szenario 2: ChatGPT Enterprise (EU-Residency)
Maximale Kontrolle Szenario 3: On-Premise KI-Modelle
Unsere Empfehlung für DSGVO-Compliance:
Azure OpenAI
EU-Hosting garantiert, Microsoft Azure Trust Center, BAA verfügbar
AWS Bedrock
EU-Regionen verfügbar (Frankfurt), AWS Compliance Programme, vollständige Datenkontrolle
On-Premise Llama
100% lokale Verarbeitung, Open Source, keine Cloud-Abhängigkeit
Tokens & Context Window
Die technischen Grundlagen für Kostenrechnung und Modell-Performance
Tokens sind die atomaren Einheiten, in die LLMs Text zerlegen. Ein Token entspricht ungefähr 0,75 Wörtern in westlichen Sprachen. Wichtig: Tokenisierung ist modell-spezifisch und variiert zwischen Anbietern (GPT-4 nutzt tiktoken, Claude nutzt claude-tokenizer).
Technisch: Tokenizer nutzen Byte-Pair Encoding (BPE) oder ähnliche Algorithmen, um Text in Subword-Einheiten zu zerlegen. Häufige Wörter = 1 Token, seltene Wörter = mehrere Tokens.
Tokenisierung verstehen
Context Window erklärt
Das Context Window definiert die maximale Anzahl an Tokens, die ein Modell gleichzeitig verarbeiten kann – Input + Output zusammen.
Technisch: Transformers nutzen Attention-Mechanismen, die quadratisch mit der Context-Länge skalieren (O(n²)). Daher: Größere Context Windows = teurere Inferenz.
Context Window Strategien
Gesamtes Dokument in Context laden
Text in Blöcke teilen, sequenziell verarbeiten
Nur relevante Chunks laden
Kosten-Falle: Unnötiger Context
Jedes Token im Context kostet – auch wenn es nicht relevant ist. Prüfen Sie: Brauchen Sie wirklich 100K Tokens Context, oder reichen 5K gezielte?
Performance: Context Caching
Moderne APIs cachen wiederholten Context (System-Prompts, lange Dokumente). Erste Anfrage teuer, weitere 90% günstiger – kritisch für Produktiv-Systeme.
Preismodelle verstehen
Wie KI-Kosten strukturiert sind – unabhängig vom konkreten Anbieter
KI-APIs nutzen typischerweise ein Token-basiertes Pricing: Sie zahlen separat für Input-Tokens (Text den Sie senden) und Output-Tokens (generierte Antwort). Output kostet mehr, da die Generierung rechenintensiver ist als das Lesen.
Modell-Kategorien
Pricing-Faktoren
Typische Größenordnungen
Warum Preise sich ständig ändern
Neue Modell-Generationen sind effizienter. Was heute Premium ist, wird morgen Standard-Preis. Beispiel: GPT-4-Klasse kostete 2023 noch $60/1M Tokens, heute unter $5/1M.
OpenAI, Anthropic, Google konkurrieren → Preise sinken kontinuierlich. Open-Source-Modelle (Llama, Mistral) drücken zusätzlich auf Preise.
Optimierung #1: Modell-Routing
Nutzen Sie verschiedene Modelle für verschiedene Tasks. Premium für komplexe Analyse, Budget für einfache Klassifikation. Spart 60-80% Kosten.
Optimierung #2: Prompt Caching
System-Prompts und Context werden gecached – Sie zahlen nur einmal für wiederholten Input. Kritisch für RAG-Systeme und Chatbots.
Halluzinationen: Wenn KI erfindet statt antwortet
Das größte Problem von Large Language Models – und wie Sie damit umgehen
KI-Modelle "halluzinieren" manchmal – sie erfinden plausibel klingende, aber falsche Informationen. Das passiert, weil sie auf Wahrscheinlichkeiten basieren, nicht auf Fakten-Datenbanken.
Beispiel einer Halluzination:
Warum passiert das?
LLMs generieren Text basierend auf Wahrscheinlichkeiten aus Trainingsdaten – sie haben kein Verständnis von "wahr" oder "falsch".
Das Modell versucht immer eine Antwort zu generieren – auch wenn es die Antwort nicht kennt. Statt "Ich weiß es nicht" wird eine plausible Antwort erfunden.
Wie Sie Halluzinationen vermeiden:
RAG (Retrieval-Augmented Generation)
Statt KI raten zu lassen: Geben Sie ihr die Fakten! RAG holt relevante Dokumente aus Ihrer Datenbank und füttert sie als Context.
- Fakten statt Raten
- 90% weniger Halluzinationen
- Perfekt für Firmen-Wikis
Structured Outputs / JSON Mode
Erzwingen Sie strukturierte Antworten (z.B. JSON). KI kann nur aus vorgegebenen Werten wählen – keine freien Erfindungen möglich.
- Nur valide Werte
- Type-Safe
- Perfekt für Automatisierung
AI Tools / Function Calling
Statt zu raten: KI ruft Ihre API auf! Bei 'Bestellnummer für R-2024-1234' ruft KI Ihre Datenbank-API – 100% korrekt!
- Echte Datenbank-Abfragen
- Keine Erfindungen
- Production-Ready
Prompt Engineering
Instruktionen wie 'Wenn du die Antwort nicht weißt, sage: Ich weiß es nicht' reduzieren Halluzinationen deutlich.
- Explizite Grenzen setzen
- Unsicherheit erlauben
- Transparenz fördern
Best Practice: Multi-Layer Approach
Kombinieren Sie mehrere Methoden für maximale Zuverlässigkeit:
- 1.RAG für Kontext (Fakten aus Ihrer Datenbank)
- 2.Structured Outputs (erzwingt valide Formate)
- 3.AI Tools für kritische Daten (z.B. Preise, IDs, Beträge)
- 4.Human-in-the-Loop für finale Freigabe (bei kritischen Prozessen)
Bereit für Ihre KI-Automatisierung?
Jetzt wissen Sie die Grundlagen. Lassen Sie uns gemeinsam Ihre ersten Workflows bauen.