TTS Bench — Samples — mac-cloning

Reference voice

Each model below was given this clip + transcript as the voice to imitate. Source: jo.wav

Prompt 1

[en]"Open the browser and read my email."

Rank	Model	Device	TTFA warm	Audio
1	Pocket-TTS	cpu	29ms	missing
2	NeuTTS Nano	cpu	281ms	missing
3	NeuTTS Air	cpu	354ms	missing
4	OpenVoice v2	mps	437ms	missing
5	NeuTTS Nano	mps	490ms	missing
6	NeuTTS Air	mps	545ms	missing
7	OpenVoice v2	cpu	1.01s	missing
8	Coqui XTTS-v2	mps	1.38s	missing
9	MOSS-TTS-Nano	cpu	1.75s	missing
10	Chatterbox Turbo	mps	2.03s	missing
11	Coqui XTTS-v2	cpu	2.11s	missing
12	Chatterbox Turbo	cpu	2.63s	missing
13	Chatterbox	mps	5.00s	missing
14	Fish Speech 1.5	cpu	6.77s	missing
15	MOSS-TTS-Nano	mps	7.05s	missing
16	Fish Speech 1.5	mps	7.20s	missing
17	Sesame CSM-1B	cpu	8.51s	missing
18	Chatterbox	cpu	9.24s	missing
19	Qwen3-TTS 1.7B Base	cpu	9.76s	missing
20	Zonos v0.1	cpu	14.26s	missing
21	ZipVoice 123M	cpu	24.59s	missing
22	IndexTTS-2	cpu	26.61s	missing
23	F5-TTS v1	mps	30.70s	missing
24	F5-TTS v1	cpu	34.44s	missing
25	OuteTTS 1.0 1B	mps	44.86s	missing
26	OuteTTS 1.0 1B	cpu	45.09s	missing
27	OmniVoice	cpu	—	missing
28	OmniVoice	mps	—	missing

Prompt 2

[en]"I'll start a new git branch, push the changes, and open a pull request when the tests pass."

Rank	Model	Device	TTFA warm	Audio
1	Pocket-TTS	cpu	31ms	missing
2	NeuTTS Nano	cpu	283ms	missing
3	NeuTTS Air	cpu	360ms	missing
4	NeuTTS Nano	mps	486ms	missing
5	NeuTTS Air	mps	564ms	missing
6	OpenVoice v2	mps	922ms	missing
7	OpenVoice v2	cpu	2.05s	missing
8	MOSS-TTS-Nano	cpu	2.64s	missing
9	Coqui XTTS-v2	mps	2.74s	missing
10	Chatterbox Turbo	mps	3.53s	missing
11	Coqui XTTS-v2	cpu	3.80s	missing
12	Chatterbox Turbo	cpu	4.64s	missing
13	Fish Speech 1.5	cpu	13.76s	missing
14	MOSS-TTS-Nano	mps	14.75s	missing
15	Fish Speech 1.5	mps	15.79s	missing
16	Chatterbox	cpu	17.23s	missing
17	Sesame CSM-1B	cpu	18.63s	missing
18	Qwen3-TTS 1.7B Base	cpu	18.92s	missing
19	IndexTTS-2	cpu	23.93s	missing
20	ZipVoice 123M	cpu	33.32s	missing
21	Zonos v0.1	cpu	36.53s	missing
22	F5-TTS v1	mps	39.41s	missing
23	F5-TTS v1	cpu	42.09s	missing
24	Chatterbox	mps	54.25s	missing
25	OuteTTS 1.0 1B	cpu	97.76s	missing
26	OuteTTS 1.0 1B	mps	99.50s	missing
27	OmniVoice	cpu	—	missing
28	OmniVoice	mps	—	missing

Prompt 3

[en]"The Parakeet TDT zero point six billion parameter model achieves one point six nine percent word error rate on LibriSpeech test-clean, beating Whisper Large V3 at two point seven percent while running at over two thousand times realtime on a single GPU."

Rank	Model	Device	TTFA warm	Audio
1	Pocket-TTS	cpu	36ms	missing
2	NeuTTS Nano	cpu	281ms	missing
3	NeuTTS Air	cpu	361ms	missing
4	NeuTTS Nano	mps	513ms	missing
5	NeuTTS Air	mps	581ms	missing
6	OpenVoice v2	mps	1.85s	missing
7	OpenVoice v2	cpu	4.64s	missing
8	MOSS-TTS-Nano	cpu	7.64s	missing
9	Chatterbox Turbo	cpu	12.27s	missing
10	Coqui XTTS-v2	cpu	12.98s	missing
11	Coqui XTTS-v2	mps	20.49s	missing
12	Chatterbox	mps	26.06s	missing
13	Qwen3-TTS 1.7B Base	cpu	40.14s	missing
14	Fish Speech 1.5	cpu	40.25s	missing
15	MOSS-TTS-Nano	mps	40.42s	missing
16	Sesame CSM-1B	cpu	40.76s	missing
17	Chatterbox	cpu	42.22s	missing
18	Chatterbox Turbo	mps	45.81s	missing
19	Fish Speech 1.5	mps	48.60s	missing
20	F5-TTS v1	cpu	68.43s	missing
21	F5-TTS v1	mps	70.52s	missing
22	IndexTTS-2	cpu	93.07s	missing
23	Zonos v0.1	cpu	143.29s	missing
24	OmniVoice	cpu	—	missing

Prompt 4

[en]"Run pytest tests slash test underscore voice dot py with verbose flag and capture flag set to no."

Rank	Model	Device	TTFA warm	Audio
1	Pocket-TTS	cpu	35ms	missing
2	NeuTTS Nano	cpu	279ms	missing
3	NeuTTS Air	cpu	359ms	missing
4	NeuTTS Nano	mps	495ms	missing
5	NeuTTS Air	mps	556ms	missing
6	OpenVoice v2	mps	1.02s	missing
7	OpenVoice v2	cpu	2.32s	missing
8	MOSS-TTS-Nano	cpu	3.46s	missing
9	Chatterbox Turbo	mps	4.65s	missing
10	Chatterbox Turbo	cpu	6.04s	missing
11	Coqui XTTS-v2	cpu	6.45s	missing
12	Coqui XTTS-v2	mps	7.32s	missing
13	MOSS-TTS-Nano	mps	18.07s	missing
14	Fish Speech 1.5	cpu	18.08s	missing
15	Chatterbox	cpu	22.05s	missing
16	Fish Speech 1.5	mps	22.26s	missing
17	Qwen3-TTS 1.7B Base	cpu	25.41s	missing
18	Sesame CSM-1B	cpu	26.38s	missing
19	IndexTTS-2	cpu	36.14s	missing
20	Zonos v0.1	cpu	40.42s	missing
21	F5-TTS v1	mps	40.42s	missing
22	F5-TTS v1	cpu	43.27s	missing
23	Chatterbox	mps	51.18s	missing
24	ZipVoice 123M	cpu	—	missing
25	OmniVoice	cpu	—	missing
26	OmniVoice	mps	—	missing

Prompt 5

[fr]"Bonjour, je m'appelle Cicero et je vais vous aider avec votre code aujourd'hui."

Rank	Model	Device	TTFA warm	Audio
1	Pocket-TTS	cpu	87ms	missing
2	NeuTTS Nano	cpu	281ms	missing
3	NeuTTS Nano	mps	479ms	missing
4	OpenVoice v2	mps	833ms	missing
5	OpenVoice v2	cpu	1.96s	missing
6	Coqui XTTS-v2	mps	2.08s	missing
7	MOSS-TTS-Nano	cpu	2.82s	missing
8	Coqui XTTS-v2	cpu	8.29s	missing
9	MOSS-TTS-Nano	mps	12.53s	missing
10	Fish Speech 1.5	cpu	12.93s	missing
11	Fish Speech 1.5	mps	15.73s	missing
12	Qwen3-TTS 1.7B Base	cpu	15.83s	missing
13	Zonos v0.1	cpu	24.91s	missing
14	ZipVoice 123M	cpu	54.92s	missing
15	OmniVoice	cpu	—	missing
16	OmniVoice	mps	—	missing