nowJobs market snapshot refreshed nowRecomputed benchmark-weighted quality scores nowUpdated speed measurements nowSynced Chatbot Arena benchmark track nowValidated official pricing snapshots nowPulled latest OpenRouter price index 25 MayOpenGuardrails: An Open-Source Context-Aware AI Guardrails Platform 25 MayPublished the 2026-05-25 daily digest 25 MayWorkbench Launches Open Source BullMQ Dashboard For Node Backends 24 MaySpecBench Tests Reward Hacking In Long Horizon Coding Agents nowJobs market snapshot refreshed nowRecomputed benchmark-weighted quality scores nowUpdated speed measurements nowSynced Chatbot Arena benchmark track nowValidated official pricing snapshots nowPulled latest OpenRouter price index 25 MayOpenGuardrails: An Open-Source Context-Aware AI Guardrails Platform 25 MayPublished the 2026-05-25 daily digest 25 MayWorkbench Launches Open Source BullMQ Dashboard For Node Backends 24 MaySpecBench Tests Reward Hacking In Long Horizon Coding Agents

AI Speed Comparison

Comprehensive speed analysis — time to first token (TTFT), output speed in tokens per second, and per-provider endpoint performance for models available on multiple platforms.

Ultra Fast (100+ tok/s)

Fast (50-99 tok/s)

Models with TTFT data

Multi-provider models

Time to First Token (TTFT)

How quickly the model starts responding. Lower is better — critical for real-time applications and chat interfaces.

#	Model	TTFT	Output Speed	Quality
1	GPT-4.1 Nano OpenAI	150ms	200 tok/s	75.0
2	Gemini 2.5 Flash Google	160ms	350 tok/s	78.0
3	Mistral Small 3.1 24B Mistral	180ms	150 tok/s	72.0
4	GPT-4.1 Mini OpenAI	190ms	160 tok/s	75.0
5	GPT-4o-mini (2024-07-18) OpenAI	210ms	150 tok/s	74.0
6	Llama 4 Scout Meta	220ms	120 tok/s	79.0
7	Claude Sonnet 4.6 Anthropic	240ms	90 tok/s	86.0
8	GPT-4.1 OpenAI	250ms	110 tok/s	77.0
9	Llama 4 Maverick Meta	250ms	95 tok/s	76.0
10	Claude Sonnet 4 Anthropic	260ms	80 tok/s	79.0
11	Gemini 2.5 Pro Google	270ms	90 tok/s	83.0
12	Claude Opus 4.6 Anthropic	280ms	50 tok/s	89.0
13	Llama 3.3 70B Instruct Meta	280ms	80 tok/s	71.0
14	GPT-4o (2024-05-13) OpenAI	290ms	100 tok/s	75.0
15	Mistral Large Mistral	310ms	80 tok/s	73.0
16	GPT-5.2 OpenAI	320ms	85 tok/s	90.0
17	Qwen2.5 72B Instruct Alibaba	340ms	65 tok/s	71.0
18	Claude Opus 4 Anthropic	350ms	30 tok/s	84.0
19	GPT-5 OpenAI	380ms	75 tok/s	87.0
20	DeepSeek V3.2 DeepSeek	400ms	49 tok/s	77.0
21	Qwen3 235B A22B Alibaba	420ms	40 tok/s	87.0
22	DeepSeek R1 DeepSeek	500ms	30 tok/s	85.0
23	O4 Mini OpenAI	550ms	65 tok/s	90.0
24	o3 Mini OpenAI	600ms	60 tok/s	84.0
25	O3 OpenAI	1200ms	15 tok/s	88.0

Output Speed Rankings

Tokens generated per second. Higher is better for long-form content generation. See full rankings →

1 Gemini 2.5 Flash

350 tok/s

2 GPT-4.1 Nano

200 tok/s

3 GPT-4.1 Mini

160 tok/s

4 GPT-4o-mini (2024-07-18)

150 tok/s

5 Mistral Small 3.1 24B

150 tok/s

6 Llama 4 Scout

120 tok/s

7 GPT-4.1

110 tok/s

8 GPT-4o (2024-05-13)

100 tok/s

9 Llama 4 Maverick

95 tok/s

10 Claude Sonnet 4.6

90 tok/s

11 Gemini 2.5 Pro

90 tok/s

12 GPT-5.2

85 tok/s

13 Claude Sonnet 4

80 tok/s

14 Mistral Large

80 tok/s

15 Llama 3.3 70B Instruct

80 tok/s

Per-Provider Endpoint Comparison

Some open-source models are available on multiple platforms with different speed and pricing. Compare endpoints.

Llama 4 Maverick 2 providers

Provider	Speed	TTFT	Input $/M	Output $/M
Meta Direct	110 tok/s	180ms	Free	Free
AWS Bedrock	85 tok/s	250ms	$0.22	$0.65

About Speed Measurements

TTFT (Time to First Token) — How long until the model starts generating its response, measured in milliseconds. Critical for chat applications where perceived responsiveness matters.

Output Speed (tok/s) — How many tokens the model generates per second once it starts responding. Important for long-form content generation.

Speed data sourced from Artificial Analysis and provider benchmarks. Actual speeds may vary based on load, region, and input complexity.

Fastest AI Models → Full Leaderboard → Compare Models →