KI-Modelle verstehen & evaluieren
Technische Grundlagen, Evaluierungskriterien und Auswahlprozess – unabhängig von sich ändernden Modellnamen
Modell-Architekturen verstehen
Die technischen Grundlagen hinter Large Language Models
Moderne LLMs basieren primär auf der Transformer-Architektur (Vaswani et al., 2017). Das fundamentale Prinzip: Self-Attention-Mechanismen ermöglichen es, Beziehungen zwischen allen Tokens im Context parallel zu berechnen – im Gegensatz zu sequenziellen Modellen (RNNs, LSTMs).
Decoder-Only Modelle
Architektur: Nur Decoder-Stack (GPT-Familie, LLaMA, Mistral)
Training: Causal Language Modeling (Auto-Regressive) – Vorhersage des nächsten Tokens
Use Cases: Text-Generierung, Chat, Code-Completion
Encoder-Decoder Modelle
Architektur: Encoder + Decoder (T5, BART, ursprüngliches BERT)
Training: Masked Language Modeling + Seq2Seq Tasks
Use Cases: Übersetzung, Zusammenfassung, strukturierte Transformationen
Wichtige technische Konzepte
Mehrere parallele Attention-Mechanismen lernen verschiedene Relationen (Syntax, Semantik, long-range dependencies)
Da Transformers keine sequenzielle Struktur haben, wird Position durch Sinusoidal/Learned Embeddings kodiert
Stabilisiert Training bei sehr tiefen Netzen (moderne LLMs: 50-100+ Transformer-Schichten)
Evaluierungskriterien für Modelle
Wie Sie Modelle nach objektiven Kriterien vergleichen
1. Capability-Dimensionen
2. Performance-Metriken
Time-to-First-Token (TTFT) und Tokens-per-Second (TPS)
Requests-per-Second (RPS) und Concurrent Users
$ pro 1M Tokens, aber normiert auf Quality
3. Safety & Alignment
Modelle werden mit Reinforcement Learning from Human Feedback auf hilfreiche, harmlose und ehrliche Antworten trainiert. Reduziert toxische Outputs.
Wie gut lehnt das Modell unsichere Anfragen ab? Balance zwischen Safety und Over-Refusal (zu strenge Ablehnung legitimer Fragen).
Anbieter-Kategorien
Technische und geschäftliche Unterschiede zwischen Anbietertypen
Closed-Source
Beispiele: OpenAI, Anthropic, Google (Gemini)
Open-Source
Beispiele: Meta (LLaMA), Mistral, DeepSeek
Enterprise Platforms
Beispiele: Azure OpenAI, AWS Bedrock, Vertex AI
Hybrid-Ansatz: Model Router / Gateway
Moderne Architekturen nutzen oft Model Routing: Einfache Queries → günstige Modelle, komplexe Reasoning → Frontier Models. Tools: LiteLLM, Portkey, OpenRouter.
60-80% Kostensenkung bei gleichbleibender Quality für gemischte Workloads
Classifier entscheidet basierend auf Query-Komplexität welches Modell genutzt wird
Deployment-Optionen
Von Cloud-APIs bis On-Premise: Technische Trade-offs
Cloud API (Managed)
- • REST/gRPC API, typisch HTTPS
- • Serverless, auto-scaling
- • Rate Limits: Tier-basiert (TPM, RPM)
- • Latenz: ~200-500ms (Network + Inference)
On-Premise / Self-Hosted
- • Eigene GPU-Infrastruktur (A100, H100)
- • Inference Server: vLLM, TGI, TensorRT-LLM
- • Latenz: 50-200ms (nur Inference, kein Network)
- • Hardware: 1-8 GPUs je nach Modellgröße
Hybrid: Private Cloud / VPC Deployment
Managed Service, aber in Ihrer VPC/Subscription. EU Data Residency, SLAs.
Dedicated Deployment in deren Infrastructure, aber logisch isoliert für Sie.
Self-managed on AWS/GCP, volle Kontrolle, aber Cloud-Skalierung.
Modell-Auswahlprozess
Systematische Evaluation statt Modell-Namen raten
Decision Framework: 5-Schritt-Prozess
Beispiel: Customer Support Chatbot
- • Latenz: <500ms (User erwartet schnelle Antwort)
- • Sprachen: DE/EN
- • Tool Use: Ticket-System-API, Knowledge Base
- • DSGVO: Kritisch (Kundendaten)
• Standard-Tier Modell (nicht Flagship – zu teuer für Support)
• RAG mit Vector DB für Knowledge Base
• Function Calling für Ticket-API
Beispiel: Code-Generierung (Internal Tool)
- • Latenz: Weniger kritisch (Entwickler warten 2-3s)
- • Quality > Speed
- • Proprietary Codebase (darf nicht in Training)
- • Budget: Moderate Nutzung (~100 Requests/Tag)
• Self-Hosted LLaMA 3 (70B+) als Alternative
• Codebase-Embeddings in Vector DB
• Kein Cloud-API (IP-Schutz)
Key Takeaways
Unsicher welches Modell für Ihren Use Case?
Wir helfen Ihnen bei der technischen Evaluation und dem Setup Ihrer KI-Infrastruktur.