TTS Bench — Samples — windows-default

Prompt 1

[en]"Open the browser and read my email."

Rank	Model	Device	TTFA warm
1	Kokoro	cuda	47ms
2	Piper	cpu	47ms
3	Pocket-TTS	cpu	66ms
4	MeloTTS	cuda	75ms
5	LFM2.5-Audio 1.5B	cpu	83ms
6	LFM2.5-Audio 1.5B	cuda	89ms
7	StyleTTS 2	cpu	168ms
8	StyleTTS 2	cuda	175ms
9	Kokoro	cpu	226ms
10	NeuTTS Nano	cuda	270ms
11	NeuTTS Nano	cpu	303ms
12	OpenVoice v2	cuda	304ms
13	MeloTTS	cpu	345ms
14	NeuTTS Air	cuda	411ms
15	Supertonic 3	cpu	438ms
16	NeuTTS Air	cpu	463ms
17	KittenTTS Nano 0.1	cpu	504ms
18	Qwen3-TTS 1.7B (CUDA-graph)	cuda	557ms
19	Soprano 1.1 80M	cuda	557ms
20	OpenVoice v2	cpu	595ms
21	Coqui XTTS-v2	cuda	614ms
22	Soprano 1.1 80M	cpu	661ms
23	Chatterbox Turbo	cuda	725ms
24	F5-TTS v1	cuda	778ms
25	OmniVoice	cuda	887ms
26	ZipVoice 123M	cuda	1.20s
27	Chatterbox	cuda	1.22s
28	LongCat-AudioDiT 1B	cuda	1.24s
29	VibeVoice Realtime 0.5B	cuda	1.35s
30	Magpie-TTS	cuda	1.61s
31	LongCat-AudioDiT 3.5B	cuda	1.76s
32	VibeVoice 1.5B	cuda	1.85s
33	IndexTTS-2	cpu	2.04s
34	Echo-TTS	cuda	2.11s
35	VoxCPM2 2B	cuda	2.48s
36	MOSS-TTS-Nano	cuda	2.57s
37	Parler-TTS Mini v1	cuda	2.58s
38	MOSS-TTS v1.0	cuda	2.72s
39	IndexTTS-2	cuda	2.74s
40	Coqui XTTS-v2	cpu	2.75s
41	Qwen3-TTS 1.7B Base	cuda	2.78s
42	MOSS-TTS-Nano	cpu	2.99s
43	DramaBox	cuda	2.99s
44	Fish Speech 1.5	cuda	3.06s
45	Zonos v0.1	cuda	3.50s
46	Chatterbox Turbo	cpu	3.62s
47	Sesame CSM-1B	cuda	3.73s
48	VibeVoice Realtime 0.5B	cpu	4.74s
49	Maya1	cuda	4.75s
50	Dia 1.6B-0626	cuda	4.75s
51	Chatterbox	cpu	5.32s
52	Miso TTS 8B	cuda	5.48s
53	MOSS-TTS v1.5	cuda	5.62s
54	Magpie-TTS	cpu	7.12s
55	OmniVoice	cpu	7.50s
56	VibeVoice 7B	cuda	7.64s
57	VoxCPM2 2B	cpu	8.44s
58	OuteTTS 1.0 1B	cuda	10.20s
59	ZipVoice 123M	cpu	10.63s
60	Qwen3-TTS 1.7B Base	cpu	11.69s
61	Fish Speech 1.5	cpu	15.07s
62	Parler-TTS Mini v1	cpu	16.48s
63	Mars5-TTS	cpu	19.20s
64	Mars5-TTS	cuda	19.75s
65	Zonos v0.1	cpu	19.96s
66	VibeVoice 1.5B	cpu	20.22s
67	Sesame CSM-1B	cpu	20.89s
68	F5-TTS v1	cpu	45.35s
69	Maya1	cpu	49.55s

Prompt 2

[en]"I'll start a new git branch, push the changes, and open a pull request when the tests pass."

Rank	Model	Device	TTFA warm
1	Kokoro	cuda	59ms
2	Piper	cpu	89ms
3	LFM2.5-Audio 1.5B	cpu	89ms
4	Pocket-TTS	cpu	94ms
5	LFM2.5-Audio 1.5B	cuda	103ms
6	MeloTTS	cuda	107ms
7	StyleTTS 2	cuda	188ms
8	StyleTTS 2	cpu	198ms
9	NeuTTS Nano	cuda	268ms
10	NeuTTS Nano	cpu	317ms
11	OpenVoice v2	cuda	353ms
12	Kokoro	cpu	380ms
13	NeuTTS Air	cuda	420ms
14	NeuTTS Air	cpu	506ms
15	Supertonic 3	cpu	586ms
16	MeloTTS	cpu	656ms
17	F5-TTS v1	cuda	735ms
18	OmniVoice	cuda	773ms
19	KittenTTS Nano 0.1	cpu	843ms
20	LongCat-AudioDiT 1B	cuda	971ms
21	Coqui XTTS-v2	cuda	1.15s
22	OpenVoice v2	cpu	1.18s
23	Qwen3-TTS 1.7B (CUDA-graph)	cuda	1.30s
24	Chatterbox Turbo	cuda	1.30s
25	Soprano 1.1 80M	cuda	1.33s
26	Soprano 1.1 80M	cpu	1.43s
27	LongCat-AudioDiT 3.5B	cuda	1.49s
28	Echo-TTS	cuda	2.20s
29	Chatterbox	cuda	2.24s
30	VibeVoice Realtime 0.5B	cuda	2.64s
31	DramaBox	cuda	3.42s
32	Magpie-TTS	cuda	3.45s
33	VibeVoice 1.5B	cuda	3.47s
34	VoxCPM2 2B	cuda	3.59s
35	VibeVoice 7B	cuda	3.78s
36	MOSS-TTS v1.0	cuda	3.94s
37	IndexTTS-2	cuda	4.16s
38	IndexTTS-2	cpu	4.23s
39	MOSS-TTS-Nano	cpu	4.47s
40	MOSS-TTS-Nano	cuda	5.23s
41	MOSS-TTS v1.5	cuda	5.89s
42	Parler-TTS Mini v1	cuda	6.04s
43	Qwen3-TTS 1.7B Base	cuda	6.47s
44	Coqui XTTS-v2	cpu	6.65s
45	Fish Speech 1.5	cuda	7.07s
46	Zonos v0.1	cuda	7.78s
47	Chatterbox Turbo	cpu	8.06s
48	VibeVoice Realtime 0.5B	cpu	9.36s
49	Chatterbox	cpu	10.32s
50	Sesame CSM-1B	cuda	10.43s
51	Maya1	cuda	10.54s
52	VoxCPM2 2B	cpu	11.56s
53	OmniVoice	cpu	13.09s
54	OuteTTS 1.0 1B	cuda	20.98s
55	Magpie-TTS	cpu	21.02s
56	Miso TTS 8B	cuda	22.52s
57	Qwen3-TTS 1.7B Base	cpu	22.87s
58	Mars5-TTS	cuda	25.09s
59	Mars5-TTS	cpu	26.10s
60	VibeVoice 1.5B	cpu	29.51s
61	Fish Speech 1.5	cpu	31.14s
62	Parler-TTS Mini v1	cpu	42.46s
63	Zonos v0.1	cpu	45.49s
64	Dia 1.6B-0626	cuda	51.96s
65	F5-TTS v1	cpu	58.82s
66	Sesame CSM-1B	cpu	66.45s
67	Maya1	cpu	97.77s
68	ZipVoice 123M	cuda	137.13s

Prompt 3

[en]"The Parakeet TDT zero point six billion parameter model achieves one point six nine percent word error rate on LibriSpeech test-clean, beating Whisper Large V3 at two point seven percent while running at over two thousand times realtime on a single GPU."

Rank	Model	Device	TTFA warm
1	LFM2.5-Audio 1.5B	cuda	79ms
2	LFM2.5-Audio 1.5B	cpu	84ms
3	Pocket-TTS	cpu	109ms
4	Kokoro	cuda	116ms
5	MeloTTS	cuda	153ms
6	Piper	cpu	239ms
7	NeuTTS Nano	cuda	265ms
8	NeuTTS Nano	cpu	322ms
9	StyleTTS 2	cpu	328ms
10	StyleTTS 2	cuda	374ms
11	NeuTTS Air	cuda	423ms
12	NeuTTS Air	cpu	458ms
13	OpenVoice v2	cuda	485ms
14	OmniVoice	cuda	714ms
15	F5-TTS v1	cuda	1.03s
16	Kokoro	cpu	1.27s
17	LongCat-AudioDiT 1B	cuda	1.29s
18	Supertonic 3	cpu	1.45s
19	MeloTTS	cpu	1.76s
20	Echo-TTS	cuda	2.20s
21	LongCat-AudioDiT 3.5B	cuda	2.20s
22	KittenTTS Nano 0.1	cpu	2.46s
23	OpenVoice v2	cpu	3.11s
24	Chatterbox Turbo	cuda	3.12s
25	Qwen3-TTS 1.7B (CUDA-graph)	cuda	3.30s
26	Soprano 1.1 80M	cuda	3.70s
27	Soprano 1.1 80M	cpu	4.27s
28	Chatterbox	cuda	4.68s
29	Coqui XTTS-v2	cuda	4.82s
30	DramaBox	cuda	5.19s
31	VibeVoice Realtime 0.5B	cuda	7.86s
32	MOSS-TTS v1.0	cuda	8.40s
33	VibeVoice 7B	cuda	8.77s
34	Magpie-TTS	cuda	9.64s
35	MOSS-TTS-Nano	cuda	10.45s
36	VibeVoice 1.5B	cuda	10.63s
37	VoxCPM2 2B	cuda	11.06s
38	IndexTTS-2	cpu	11.13s
39	MOSS-TTS-Nano	cpu	11.83s
40	MOSS-TTS v1.5	cuda	11.88s
41	IndexTTS-2	cuda	12.58s
42	Fish Speech 1.5	cuda	17.39s
43	Parler-TTS Mini v1	cuda	18.07s
44	Sesame CSM-1B	cuda	18.23s
45	Chatterbox Turbo	cpu	19.26s
46	Qwen3-TTS 1.7B Base	cuda	19.42s
47	Dia 1.6B-0626	cuda	22.29s
48	Coqui XTTS-v2	cpu	25.28s
49	Zonos v0.1	cuda	25.58s
50	VibeVoice Realtime 0.5B	cpu	26.34s
51	Chatterbox	cpu	28.27s
52	Maya1	cuda	29.31s
53	VoxCPM2 2B	cpu	32.23s
54	OmniVoice	cpu	34.51s
55	OuteTTS 1.0 1B	cuda	50.39s
56	Mars5-TTS	cpu	50.94s
57	Mars5-TTS	cuda	51.19s
58	Qwen3-TTS 1.7B Base	cpu	63.06s
59	Miso TTS 8B	cuda	75.59s
60	F5-TTS v1	cpu	77.80s
61	Sesame CSM-1B	cpu	78.74s
62	VibeVoice 1.5B	cpu	85.74s
63	Magpie-TTS	cpu	87.47s
64	Fish Speech 1.5	cpu	96.22s
65	Parler-TTS Mini v1	cpu	140.05s
66	Zonos v0.1	cpu	156.70s

Prompt 4

[en]"Run pytest tests slash test underscore voice dot py with verbose flag and capture flag set to no."

Rank	Model	Device	TTFA warm
1	Kokoro	cuda	65ms
2	LFM2.5-Audio 1.5B	cpu	78ms
3	LFM2.5-Audio 1.5B	cuda	91ms
4	Pocket-TTS	cpu	92ms
5	Piper	cpu	93ms
6	MeloTTS	cuda	108ms
7	NeuTTS Nano	cuda	258ms
8	NeuTTS Nano	cpu	297ms
9	StyleTTS 2	cpu	309ms
10	StyleTTS 2	cuda	323ms
11	OpenVoice v2	cuda	387ms
12	NeuTTS Air	cuda	417ms
13	Kokoro	cpu	452ms
14	NeuTTS Air	cpu	456ms
15	Supertonic 3	cpu	663ms
16	OmniVoice	cuda	694ms
17	MeloTTS	cpu	743ms
18	F5-TTS v1	cuda	836ms
19	KittenTTS Nano 0.1	cpu	1.01s
20	LongCat-AudioDiT 1B	cuda	1.26s
21	Chatterbox Turbo	cuda	1.33s
22	OpenVoice v2	cpu	1.39s
23	Soprano 1.1 80M	cuda	1.49s
24	Soprano 1.1 80M	cpu	1.62s
25	Qwen3-TTS 1.7B (CUDA-graph)	cuda	1.66s
26	LongCat-AudioDiT 3.5B	cuda	1.74s
27	Coqui XTTS-v2	cuda	1.93s
28	Echo-TTS	cuda	2.09s
29	Chatterbox	cuda	2.31s
30	VibeVoice Realtime 0.5B	cuda	3.23s
31	DramaBox	cuda	3.52s
32	MOSS-TTS-Nano	cuda	3.67s
33	IndexTTS-2	cpu	4.29s
34	Magpie-TTS	cuda	4.37s
35	VibeVoice 7B	cuda	4.48s
36	IndexTTS-2	cuda	4.64s
37	MOSS-TTS v1.0	cuda	4.90s
38	MOSS-TTS-Nano	cpu	5.00s
39	VibeVoice 1.5B	cuda	5.30s
40	Parler-TTS Mini v1	cuda	5.87s
41	VoxCPM2 2B	cuda	6.05s
42	Fish Speech 1.5	cuda	6.90s
43	MOSS-TTS v1.5	cuda	7.04s
44	Chatterbox Turbo	cpu	8.76s
45	Zonos v0.1	cuda	9.44s
46	Coqui XTTS-v2	cpu	9.48s
47	Qwen3-TTS 1.7B Base	cuda	9.49s
48	Dia 1.6B-0626	cuda	12.27s
49	Chatterbox	cpu	12.46s
50	VibeVoice Realtime 0.5B	cpu	12.96s
51	OmniVoice	cpu	13.20s
52	VoxCPM2 2B	cpu	13.91s
53	Maya1	cuda	14.58s
54	ZipVoice 123M	cpu	16.26s
55	Sesame CSM-1B	cuda	17.41s
56	OuteTTS 1.0 1B	cuda	23.43s
57	Miso TTS 8B	cuda	24.87s
58	Mars5-TTS	cpu	26.53s
59	Mars5-TTS	cuda	28.21s
60	Magpie-TTS	cpu	29.11s
61	Qwen3-TTS 1.7B Base	cpu	30.68s
62	Fish Speech 1.5	cpu	42.69s
63	VibeVoice 1.5B	cpu	45.79s
64	Zonos v0.1	cpu	49.69s
65	Parler-TTS Mini v1	cpu	52.09s
66	F5-TTS v1	cpu	58.87s
67	Sesame CSM-1B	cpu	64.06s
68	ZipVoice 123M	cuda	142.94s

Prompt 5

[fr]"Bonjour, je m'appelle Cicero et je vais vous aider avec votre code aujourd'hui."

Rank	Model	Device	TTFA warm
1	Kokoro	cuda	50ms
2	Piper	cpu	68ms
3	MeloTTS	cuda	139ms
4	NeuTTS Nano	cuda	230ms
5	Pocket-TTS	cpu	253ms
6	OpenVoice v2	cuda	276ms
7	NeuTTS Nano	cpu	277ms
8	Kokoro	cpu	334ms
9	MeloTTS	cpu	464ms
10	Supertonic 3	cpu	565ms
11	OmniVoice	cuda	719ms
12	Coqui XTTS-v2	cuda	859ms
13	OpenVoice v2	cpu	1.13s
14	Qwen3-TTS 1.7B (CUDA-graph)	cuda	1.18s
15	MOSS-TTS-Nano	cuda	2.67s
16	VoxCPM2 2B	cuda	2.77s
17	Magpie-TTS	cuda	3.34s
18	MOSS-TTS v1.0	cuda	3.74s
19	MOSS-TTS v1.5	cuda	3.87s
20	MOSS-TTS-Nano	cpu	3.89s
21	Coqui XTTS-v2	cpu	4.47s
22	Fish Speech 1.5	cuda	4.77s
23	Zonos v0.1	cuda	5.59s
24	Qwen3-TTS 1.7B Base	cuda	6.57s
25	VoxCPM2 2B	cpu	8.08s
26	OmniVoice	cpu	11.60s
27	ZipVoice 123M	cpu	13.44s
28	OuteTTS 1.0 1B	cuda	16.34s
29	Qwen3-TTS 1.7B Base	cpu	22.03s
30	Magpie-TTS	cpu	23.89s
31	Zonos v0.1	cpu	30.99s
32	Fish Speech 1.5	cpu	41.60s
33	ZipVoice 123M	cuda	64.78s