TTS Bench — Samples — linux-default

Prompt 1

[en]"Open the browser and read my email."

Rank	Model	Device	TTFA warm
1	Kokoro	cuda	47ms
2	Piper	cpu	62ms
3	Pocket-TTS	cpu	85ms
4	StyleTTS 2	cuda	142ms
5	StyleTTS 2	cpu	144ms
6	LuxTTS	cuda	194ms
7	OpenVoice v2	cuda	248ms
8	NeuTTS Nano	cuda	315ms
9	Kokoro	cpu	361ms
10	NeuTTS Nano	cpu	392ms
11	Soprano 1.1 80M	cuda	397ms
12	MiraTTS	cuda	451ms
13	NeuTTS Air	cuda	486ms
14	Chatterbox Turbo	cuda	521ms
15	NeuTTS Air	cpu	546ms
16	Coqui XTTS-v2	cuda	557ms
17	Supertonic 3	cpu	596ms
18	Soprano 1.1 80M	cpu	662ms
19	Qwen3-TTS 1.7B (CUDA-graph)	cuda	679ms
20	OmniVoice	cuda	713ms
21	KittenTTS Nano 0.1	cpu	736ms
22	Higgs Audio v3 TTS	cuda	820ms
23	longcat_1b	cuda	856ms
24	OpenVoice v2	cpu	1.04s
25	longcat_3p5b	cuda	1.05s
26	Chatterbox	cuda	1.06s
27	VibeVoice Realtime 0.5B	cuda	1.08s
28	LuxTTS	cpu	1.10s
29	F5-TTS v1	cuda	1.11s
30	Magpie-TTS	cuda	1.42s
31	VibeVoice 1.5B	cuda	1.46s
32	MOSS-TTS-Nano	cuda	1.66s
33	Fish Speech 1.5	cuda	2.03s
34	Qwen3-TTS 1.7B Base	cuda	2.08s
35	MOSS-TTS v1.0	cuda	2.29s
36	Zonos v0.1	cuda	2.36s
37	VoxCPM2 2B	cuda	2.36s
38	MOSS-TTS v1.5	cuda	2.48s
39	MetaVoice-1B	cuda	2.52s
40	IndexTTS-2	cpu	2.65s
41	IndexTTS-2	cuda	2.88s
42	Step-Audio-EditX	cuda	2.92s
43	Coqui XTTS-v2	cpu	3.07s
44	Sesame CSM-1B	cuda	3.24s
45	MOSS-TTS-Nano	cpu	3.38s
46	dots.tts (soar)	cuda	3.77s
47	Chatterbox Turbo	cpu	3.79s
48	VibeVoice 7B	cuda	3.88s
49	Dia 1.6B-0626	cuda	4.12s
50	Maya1	cuda	4.28s
51	Echo-TTS	cuda	4.33s
52	VibeVoice Realtime 0.5B	cpu	5.46s
53	Miso TTS 8B	cuda	5.75s
54	DramaBox	cuda	5.78s
55	Chatterbox	cpu	6.02s
56	ZipVoice 123M	cpu	7.14s
57	OuteTTS 1.0 1B	cuda	7.24s
58	OmniVoice	cpu	7.73s
59	Magpie-TTS	cpu	8.50s
60	Fish Speech S2-Pro	cuda	11.36s
61	Qwen3-TTS 1.7B Base	cpu	13.70s
62	VoxCPM2 2B	cpu	13.71s
63	Sesame CSM-1B	cpu	14.84s
64	Zonos v0.1	cpu	18.49s
65	VibeVoice 1.5B	cpu	19.39s
66	Fish Speech 1.5	cpu	21.81s
67	Maya1	cpu	35.94s
68	Mars5-TTS	cpu	37.79s
69	Mars5-TTS	cuda	37.89s
70	F5-TTS v1	cpu	38.91s
71	OuteTTS 1.0 1B	cpu	64.24s

Prompt 2

[en]"I'll start a new git branch, push the changes, and open a pull request when the tests pass."

Rank	Model	Device	TTFA warm
1	Kokoro	cuda	63ms
2	Pocket-TTS	cpu	110ms
3	Piper	cpu	150ms
4	StyleTTS 2	cuda	203ms
5	LuxTTS	cuda	205ms
6	StyleTTS 2	cpu	212ms
7	OpenVoice v2	cuda	287ms
8	NeuTTS Nano	cuda	315ms
9	NeuTTS Nano	cpu	390ms
10	NeuTTS Air	cuda	462ms
11	NeuTTS Air	cpu	547ms
12	OmniVoice	cuda	678ms
13	longcat_1b	cuda	787ms
14	MiraTTS	cuda	806ms
15	Kokoro	cpu	824ms
16	Supertonic 3	cpu	1.00s
17	Soprano 1.1 80M	cuda	1.01s
18	Chatterbox Turbo	cuda	1.12s
19	Coqui XTTS-v2	cuda	1.17s
20	F5-TTS v1	cuda	1.34s
21	LuxTTS	cpu	1.57s
22	Qwen3-TTS 1.7B (CUDA-graph)	cuda	1.59s
23	longcat_3p5b	cuda	1.66s
24	Higgs Audio v3 TTS	cuda	1.71s
25	Soprano 1.1 80M	cpu	1.75s
26	Chatterbox	cuda	1.90s
27	KittenTTS Nano 0.1	cpu	1.91s
28	OpenVoice v2	cpu	2.24s
29	VibeVoice Realtime 0.5B	cuda	2.24s
30	VoxCPM2 2B	cuda	2.43s
31	VibeVoice 1.5B	cuda	2.51s
32	MOSS-TTS-Nano	cuda	2.86s
33	MOSS-TTS v1.5	cuda	3.11s
34	Magpie-TTS	cuda	3.12s
35	MOSS-TTS v1.0	cuda	3.19s
36	IndexTTS-2	cpu	3.84s
37	Step-Audio-EditX	cuda	4.23s
38	IndexTTS-2	cuda	4.27s
39	Fish Speech 1.5	cuda	4.27s
40	Echo-TTS	cuda	4.30s
41	MOSS-TTS-Nano	cpu	5.18s
42	MetaVoice-1B	cuda	5.34s
43	dots.tts (soar)	cuda	5.39s
44	Qwen3-TTS 1.7B Base	cuda	5.54s
45	Zonos v0.1	cuda	5.72s
46	Sesame CSM-1B	cuda	6.62s
47	Chatterbox Turbo	cpu	6.65s
48	DramaBox	cuda	7.05s
49	Coqui XTTS-v2	cpu	7.15s
50	Maya1	cuda	8.17s
51	VibeVoice 7B	cuda	9.32s
52	VibeVoice Realtime 0.5B	cpu	11.00s
53	Chatterbox	cpu	12.08s
54	OmniVoice	cpu	12.82s
55	ZipVoice 123M	cpu	13.71s
56	OuteTTS 1.0 1B	cuda	15.09s
57	Miso TTS 8B	cuda	15.38s
58	Dia 1.6B-0626	cuda	21.78s
59	VoxCPM2 2B	cpu	21.93s
60	Magpie-TTS	cpu	23.70s
61	Qwen3-TTS 1.7B Base	cpu	26.55s
62	Fish Speech S2-Pro	cuda	26.67s
63	VibeVoice 1.5B	cpu	31.43s
64	Zonos v0.1	cpu	45.78s
65	Mars5-TTS	cuda	47.97s
66	Mars5-TTS	cpu	47.98s
67	F5-TTS v1	cpu	49.20s
68	Sesame CSM-1B	cpu	61.47s
69	Fish Speech 1.5	cpu	68.38s
70	Maya1	cpu	82.85s
71	OuteTTS 1.0 1B	cpu	122.25s

Prompt 3

[en]"The Parakeet TDT zero point six billion parameter model achieves one point six nine percent word error rate on LibriSpeech test-clean, beating Whisper Large V3 at two point seven percent while running at over two thousand times realtime on a single GPU."

Rank	Model	Device	TTFA warm
1	Kokoro	cuda	133ms
2	Pocket-TTS	cpu	138ms
3	LuxTTS	cuda	257ms
4	NeuTTS Nano	cuda	348ms
5	StyleTTS 2	cuda	398ms
6	StyleTTS 2	cpu	403ms
7	NeuTTS Nano	cpu	419ms
8	Piper	cpu	428ms
9	NeuTTS Air	cuda	492ms
10	OpenVoice v2	cuda	566ms
11	NeuTTS Air	cpu	568ms
12	OmniVoice	cuda	1.05s
13	longcat_1b	cuda	1.08s
14	F5-TTS v1	cuda	1.94s
15	MiraTTS	cuda	2.32s
16	Supertonic 3	cpu	2.67s
17	longcat_3p5b	cuda	2.98s
18	Soprano 1.1 80M	cuda	2.99s
19	Chatterbox Turbo	cuda	3.19s
20	Kokoro	cpu	3.30s
21	LuxTTS	cpu	3.33s
22	KittenTTS Nano 0.1	cpu	3.90s
23	Coqui XTTS-v2	cuda	4.15s
24	Echo-TTS	cuda	4.32s
25	Qwen3-TTS 1.7B (CUDA-graph)	cuda	4.32s
26	Chatterbox	cuda	4.60s
27	Soprano 1.1 80M	cpu	4.63s
28	Higgs Audio v3 TTS	cuda	5.32s
29	VibeVoice Realtime 0.5B	cuda	6.56s
30	MOSS-TTS v1.0	cuda	6.89s
31	VoxCPM2 2B	cuda	7.01s
32	MOSS-TTS-Nano	cuda	7.14s
33	MOSS-TTS v1.5	cuda	7.42s
34	OpenVoice v2	cpu	7.48s
35	Step-Audio-EditX	cuda	9.44s
36	Magpie-TTS	cuda	9.82s
37	VibeVoice 1.5B	cuda	9.97s
38	IndexTTS-2	cpu	10.97s
39	IndexTTS-2	cuda	11.19s
40	DramaBox	cuda	11.52s
41	MOSS-TTS-Nano	cpu	12.23s
42	Sesame CSM-1B	cuda	12.95s
43	Fish Speech 1.5	cuda	13.38s
44	MetaVoice-1B	cuda	14.56s
45	Qwen3-TTS 1.7B Base	cuda	14.99s
46	dots.tts (soar)	cuda	17.68s
47	Zonos v0.1	cuda	17.80s
48	Dia 1.6B-0626	cuda	18.82s
49	Chatterbox Turbo	cpu	22.73s
50	Maya1	cuda	25.34s
51	Coqui XTTS-v2	cpu	25.88s
52	VibeVoice 7B	cuda	25.90s
53	OmniVoice	cpu	31.64s
54	Chatterbox	cpu	31.83s
55	VibeVoice Realtime 0.5B	cpu	31.98s
56	OuteTTS 1.0 1B	cuda	39.77s
57	Miso TTS 8B	cuda	50.14s
58	VoxCPM2 2B	cpu	59.59s
59	Qwen3-TTS 1.7B Base	cpu	72.20s
60	Fish Speech S2-Pro	cuda	81.84s
61	F5-TTS v1	cpu	83.01s
62	Sesame CSM-1B	cpu	84.06s
63	VibeVoice 1.5B	cpu	95.89s
64	Mars5-TTS	cpu	96.12s
65	Mars5-TTS	cuda	97.23s
66	Magpie-TTS	cpu	106.38s
67	Fish Speech 1.5	cpu	141.83s
68	Zonos v0.1	cpu	164.47s

Prompt 4

[en]"Run pytest tests slash test underscore voice dot py with verbose flag and capture flag set to no."

Rank	Model	Device	TTFA warm
1	Kokoro	cuda	70ms
2	Pocket-TTS	cpu	123ms
3	Piper	cpu	152ms
4	LuxTTS	cuda	206ms
5	StyleTTS 2	cuda	269ms
6	StyleTTS 2	cpu	286ms
7	NeuTTS Nano	cuda	323ms
8	OpenVoice v2	cuda	367ms
9	NeuTTS Nano	cpu	406ms
10	NeuTTS Air	cuda	473ms
11	NeuTTS Air	cpu	555ms
12	OmniVoice	cuda	672ms
13	longcat_1b	cuda	794ms
14	Kokoro	cpu	959ms
15	Supertonic 3	cpu	1.12s
16	Soprano 1.1 80M	cuda	1.15s
17	Chatterbox Turbo	cuda	1.34s
18	F5-TTS v1	cuda	1.34s
19	MiraTTS	cuda	1.35s
20	LuxTTS	cpu	1.62s
21	longcat_3p5b	cuda	1.65s
22	KittenTTS Nano 0.1	cpu	1.71s
23	Soprano 1.1 80M	cpu	1.88s
24	Coqui XTTS-v2	cuda	1.99s
25	Qwen3-TTS 1.7B (CUDA-graph)	cuda	2.07s
26	Chatterbox	cuda	2.26s
27	Higgs Audio v3 TTS	cuda	2.29s
28	OpenVoice v2	cpu	2.60s
29	MOSS-TTS-Nano	cuda	3.08s
30	VibeVoice Realtime 0.5B	cuda	3.22s
31	VoxCPM2 2B	cuda	3.59s
32	MOSS-TTS v1.0	cuda	3.93s
33	MOSS-TTS v1.5	cuda	4.12s
34	Magpie-TTS	cuda	4.32s
35	Echo-TTS	cuda	4.32s
36	VibeVoice 1.5B	cuda	4.81s
37	Step-Audio-EditX	cuda	5.22s
38	IndexTTS-2	cpu	5.23s
39	IndexTTS-2	cuda	5.47s
40	MOSS-TTS-Nano	cpu	5.95s
41	Zonos v0.1	cuda	6.19s
42	Fish Speech 1.5	cuda	6.59s
43	MetaVoice-1B	cuda	7.53s
44	DramaBox	cuda	7.55s
45	Qwen3-TTS 1.7B Base	cuda	7.63s
46	dots.tts (soar)	cuda	8.82s
47	Chatterbox Turbo	cpu	9.17s
48	Dia 1.6B-0626	cuda	10.60s
49	Maya1	cuda	10.95s
50	Sesame CSM-1B	cuda	11.84s
51	OmniVoice	cpu	12.84s
52	Coqui XTTS-v2	cpu	13.26s
53	VibeVoice Realtime 0.5B	cpu	14.99s
54	ZipVoice 123M	cpu	15.03s
55	VibeVoice 7B	cuda	15.16s
56	Chatterbox	cpu	16.17s
57	OuteTTS 1.0 1B	cuda	16.87s
58	Miso TTS 8B	cuda	17.67s
59	Magpie-TTS	cpu	33.05s
60	VoxCPM2 2B	cpu	33.64s
61	Qwen3-TTS 1.7B Base	cpu	36.51s
62	Fish Speech S2-Pro	cuda	38.87s
63	Mars5-TTS	cpu	50.17s
64	F5-TTS v1	cpu	50.71s
65	Zonos v0.1	cpu	50.77s
66	Mars5-TTS	cuda	51.80s
67	VibeVoice 1.5B	cpu	62.28s
68	Fish Speech 1.5	cpu	63.58s
69	Sesame CSM-1B	cpu	70.00s

Prompt 5

[fr]"Bonjour, je m'appelle Cicero et je vais vous aider avec votre code aujourd'hui."

Rank	Model	Device	TTFA warm
1	Kokoro	cuda	49ms
2	Piper	cpu	109ms
3	NeuTTS Nano	cuda	257ms
4	Pocket-TTS	cpu	283ms
5	NeuTTS Nano	cpu	338ms
6	OpenVoice v2	cuda	349ms
7	Kokoro	cpu	668ms
8	OmniVoice	cuda	683ms
9	Coqui XTTS-v2	cuda	923ms
10	Supertonic 3	cpu	993ms
11	Qwen3-TTS 1.7B (CUDA-graph)	cuda	1.41s
12	Higgs Audio v3 TTS	cuda	1.64s
13	VoxCPM2 2B	cuda	1.82s
14	OpenVoice v2	cpu	1.96s
15	MOSS-TTS v1.5	cuda	2.90s
16	MOSS-TTS v1.0	cuda	3.05s
17	MOSS-TTS-Nano	cuda	3.06s
18	Magpie-TTS	cuda	3.32s
19	MOSS-TTS-Nano	cpu	3.71s
20	Fish Speech 1.5	cuda	3.97s
21	Zonos v0.1	cuda	4.04s
22	Qwen3-TTS 1.7B Base	cuda	4.80s
23	dots.tts (soar)	cuda	5.67s
24	Coqui XTTS-v2	cpu	6.18s
25	OmniVoice	cpu	11.73s
26	OuteTTS 1.0 1B	cuda	12.05s
27	ZipVoice 123M	cpu	12.88s
28	VoxCPM2 2B	cpu	16.92s
29	Magpie-TTS	cpu	27.26s
30	Qwen3-TTS 1.7B Base	cpu	27.66s
31	Zonos v0.1	cpu	31.64s
32	Fish Speech 1.5	cpu	56.98s