Tokenization, Context Windows & Cost Management

Understanding tokens, optimizing context usage, and managing AI API costs at scale

Tokenization & Cost Management

Tokenization

Different models use different tokenizers:

OpenAI: ~1.3 tokens/word

Claude: ~1.4 tokens/word

Gemini: ~1.2 tokens/word

Context Windows

Size	What It Holds
8K	~10-page article
128K	~200-page book
200K (Claude)	~300 pages
1M (Gemini)	The complete Harry Potter series

Cost Optimization Strategies

**Smart routing** — Simple tasks to cheap models (save 40-70%)

**Prompt compression** — LLMLingua reduces tokens 40-60%

**Semantic caching** — Cache similar queries (30-50% hit rate)

**Batch processing** — Group non-real-time requests

Your Turn!

python

requests = 100000
inp, out = 2000, 500

models = [
    ("Gemini Flash", 0.15, 0.60),
    ("GPT-4o", 2.50, 10.00),
    ("Claude Haiku", 0.80, 4.00),
]

for name, in_rate, out_rate in models:
    daily = (requests * inp / 1e6 * in_rate) + (requests * out / 1e6 * out_rate)
    print(f"{name:20s} | Daily: ${daily:.2f} | Monthly: ${daily*30:.2f}")

✏️ Code Editor

Loading Python...

📤 Output

Write your solution and click "Run Code" to test it!

← Evaluation & Benchmarks 🎉 Course Complete!