Multimodal AI Models

30 LLMs that can process more than just text — vision, audio, video, and more. Ranked by capability breadth and quality.

Vision (Image Input)

Audio Input

Video Input

Text Only

Multimodal Models

#	Model	Modalities	Quality	Price	Context
1	Gemini 2.5 Pro Google	Text vision Audio	83.0	$1.25	1.0M
2	Gemini 2.5 Flash Google	Text vision Audio	78.0	$0.30	1.0M
3	Gemini 2.5 Flash Lite Google	Text vision Audio	74.0	$0.10	1.0M
4	GPT-5.2 Pro OpenAI	Text vision	93.0	$21.00	400K
5	GPT-5 Pro OpenAI	Text vision	90.0	$15.00	400K
6	GPT-5.2 OpenAI	Text vision	90.0	$1.75	400K
7	O4 Mini OpenAI	Text vision	90.0	$1.10	200K
8	Claude Opus 4.6 Anthropic	Text vision	89.0	$15.00	1M
9	O3 OpenAI	Text vision	88.0	$2.00	200K
10	O3 Pro OpenAI	Text vision	88.0	$20.00	200K
11	GPT-5 OpenAI	Text vision	87.0	$1.25	400K
12	Claude Opus 4.5 Anthropic	Text vision	86.0	$5.00	200K
13	Claude Sonnet 4.6 Anthropic	Text vision	86.0	$3.00	1M
14	Claude Opus 4 Anthropic	Text vision	84.0	$15.00	200K
15	o1 OpenAI	Text vision	84.0	$15.00	200K
16	Claude Sonnet 4 Anthropic	Text vision	79.0	$3.00	1M
17	Claude Sonnet 4.5 Anthropic	Text vision	79.0	$3.00	1M
18	Llama 4 Scout OSS Meta	Text vision	79.0	$0.10	10M
19	GPT-5 Nano OpenAI	Text vision	78.0	$0.05	400K
20	Nova Pro 1.0 Amazon	Text vision	78.0	$0.80	300K
21	GPT-4.1 OpenAI	Text vision	77.0	$2.00	1.0M
22	Claude Haiku 4.5 Anthropic	Text vision	76.0	$1.00	200K
23	Llama 4 Maverick OSS Meta	Text vision	76.0	$0.20	1.0M
24	GPT-4.1 Mini OpenAI	Text vision	75.0	$0.40	1.0M
25	GPT-4.1 Nano OpenAI	Text vision	75.0	$0.10	1.0M
26	GPT-4o (2024-05-13) OpenAI	Text vision	75.0	$5.00	128K
27	GPT-4o-mini (2024-07-18) OpenAI	Text vision	74.0	$0.15	128K
28	Sonar Perplexity	Text vision	74.0	$1.00	127.1K
29	Mistral Small 3.1 24B OSS Mistral	Text vision	72.0	$0.35	128K
30	Nova Lite 1.0 Amazon	Text vision	72.0	$0.06	300K

These models process text input only. Ranked by quality score.

#	Model	Quality	Price	Context
1	Qwen3 235B A22B OSS Alibaba	87.0	$0.46	131.1K
2	Qwen3 Max OSS Alibaba	85.0	$0.78	262.1K
3	DeepSeek R1 OSS DeepSeek	85.0	$0.70	163.8K
4	o3 Mini OpenAI	84.0	$1.10	200K
5	R1 0528 OSS DeepSeek	83.0	$0.50	163.8K
6	Qwen2.5 Coder 32B Instruct OSS Alibaba	82.0	$0.66	128K
7	Command A OSS Cohere	80.0	$2.50	256K
8	Command R+ (08-2024) OSS Cohere	79.0	$2.50	128K
9	DeepSeek V3.2 OSS DeepSeek	77.0	$0.24	163.8K
10	Llama 3.1 70B Instruct OSS Meta	77.0	$0.40	131.1K
11	DeepSeek V3 OSS DeepSeek	76.0	$0.20	131.1K
12	Phi 4 OSS Microsoft	74.0	$0.07	16.4K
13	Reka Flash 3 Reka	74.0	$0.10	65.5K
14	Command R (08-2024) OSS Cohere	73.0	$0.15	128K
15	Mistral Large OSS Mistral	73.0	$2.00	128K
16	Mistral Nemo OSS Mistral	72.0	$0.02	131.1K
17	Llama 3.3 70B Instruct OSS Meta	71.0	$0.10	131.1K
18	Qwen2.5 72B Instruct OSS Alibaba	71.0	$0.36	131.1K
19	Llama 3.1 8B Instruct OSS Meta	68.0	$0.02	131.1K
20	Nova Micro 1.0 Amazon	68.0	$0.04	128K
21	Command R7B (12-2024) OSS Cohere	65.0	$0.04	128K

Multimodal models can process multiple types of input — not just text, but also images, audio, and video. This enables use cases like:

Vision: Analyse images, read charts, describe photos, OCR documents
Audio: Transcribe speech, understand tone, process music
Video: Summarise videos, extract key frames, answer questions about video content