tts-bench — Scores

Objective scores over the same 5 prompts. UTMOS = predicted naturalness (higher better); WER = ASR word-error rate vs the intended text — a failure-detector, not a fine ranking (lower better); SIM = speaker similarity to the cloned reference (chris_hemsworth_15s, higher better); Health = deterministic defect triage of the published clip (⚠ flags long internal silence / clipping / dead audio — a "go listen" cue, not a score). Switch Default / Cloning below; click any header to re-sort. Each score is the mean over the exact clips shown on Listen. Human votes are the preference ground truth; these objective metrics are backstops.

Default voice · naturalness + intelligibility

Model	Size	Released	UTMOS ↑	WER ↓	Health
Chatterbox	1.2B	Apr 2025	4.423	0.061	✓
Chatterbox Turbo	744M	Dec 2025	4.274	0.074	✓
Coqui XTTS-v2	750M	Oct 2023	4.056	0.065	✓
Dia 1.6B-0626	1.6B	Jun 2025	2.387	0.317	✓
dots.tts (soar)	2B	Jun 2026	3.227	0.059	✓
DramaBox	3.3B	Apr 2026	4.304	0.093	✓
F5-TTS v1	330M	Oct 2024	4.081	0.107	✓
Higgs Audio v3 TTS	4B	Jun 2026	4.372	0.065	✓
IndexTTS-2	1.5B	Jun 2025	4.257	0.086	✓
KittenTTS Nano 0.1	<100M	Aug 2025	3.665	0.093	✓
Kokoro	82M	Dec 2024	4.302	0.065	✓
LFM2.5-Audio 1.5B	1.5B	Dec 2025	4.383	0.066	✓
LongCat-AudioDiT 1B	1.42B	Mar 2026	4.053	0.093	✓
LongCat-AudioDiT 3.5B	3.83B	Mar 2026	4.341	0.080	✓
LuxTTS	123M	Jan 2026	3.540	0.092	✓
Magpie-TTS	357M	Dec 2025	4.199	0.087	✓
Mars5-TTS	1.2B	Jun 2024	3.540	0.361	✓
Maya1	3B	Oct 2025	4.487	0.066	✓
MeloTTS	~52M	Feb 2024	3.498	0.058	✓
MiraTTS	0.5B	Dec 2025	3.803	0.100	✓
Miso TTS 8B	8.2B	May 2026	4.232	0.586	✓
NeuTTS Air	748M	Sep 2025	4.003	0.117	✓
NeuTTS Nano	229M	Dec 2025	3.572	0.066	✓
OmniVoice	~1B	Mar 2026	4.104	0.040	✓
Orpheus-TTS 3B	3.3B	Mar 2025	4.005	0.102	✓
OuteTTS 1.0 1B	1B	Apr 2025	4.386	0.070	✓
Parler-TTS Mini v1	878M	Jun 2024	3.757	0.149	⚠ gap (3)
Piper	~25MB	Jan 2023	4.077	0.066	✓
Pocket-TTS	100M	Jan 2026	4.097	0.054	✓
Qwen3-TTS 1.7B (CUDA-graph)	1.7B	Jan 2026	4.323	0.065	✓
Qwen3-TTS 1.7B Base	1.7B	Jan 2026	4.276	0.096	✓
Scylla's Band	~103M	Jul 2026	4.444	0.081	✓
Sesame CSM-1B	1B	Mar 2025	4.152	0.114	✓
Soprano 1.1 80M	80M	Jan 2026	4.116	0.059	✓
Step-Audio-EditX	3B	Oct 2025	4.399	0.044	✓
StyleTTS 2	~148M	Jun 2023	4.259	0.158	✓
Supertonic 3	99M	May 2026	4.195	0.065	✓
VibeVoice Realtime 0.5B	0.5B	Dec 2025	4.043	0.148	✓
VoxCPM2 2B	2B	Apr 2026	3.480	0.023	✓
Voxtral 4B TTS	4B	Nov 2025	3.692	0.081	✓

Cloning · fidelity + naturalness + intelligibility

Model	Size	Released	SIM ↑	UTMOS ↑	WER ↓	Health
Chatterbox	1.2B	Apr 2025	0.627	4.278	0.073	✓
Chatterbox Turbo	744M	Dec 2025	0.666	4.043	0.096	✓
Coqui XTTS-v2	750M	Oct 2023	0.420	3.890	0.076	✓
CosyVoice 3 0.5B	0.5B	Dec 2025	0.723	3.761	0.501	✓
Dia 1.6B-0626	1.6B	Jun 2025	0.551	3.580	0.343	✓
dots.tts (soar)	2B	Jun 2026	0.718	3.786	0.241	✓
DramaBox	3.3B	Apr 2026	0.778	3.889	0.080	✓
Echo-TTS	2.8B	Dec 2025	0.834	4.217	0.074	✓
F5-TTS v1	330M	Oct 2024	0.769	4.027	0.195	✓
Fish Speech 1.5	~500M	Nov 2024	0.623	3.673	0.109	✓
Fish Speech S2-Pro	4B	Mar 2026	0.725	4.270	0.058	✓
Higgs Audio v3 TTS	4B	Jun 2026	0.666	4.245	0.046	✓
IndexTTS-2	1.5B	Jun 2025	0.810	3.705	0.087	✓
LongCat-AudioDiT 1B	1.42B	Mar 2026	0.870	3.881	0.146	✓
LongCat-AudioDiT 3.5B	3.83B	Mar 2026	0.834	3.428	0.238	✓
LuxTTS	123M	Jan 2026	0.460	4.120	0.066	✓
Mars5-TTS	1.2B	Jun 2024	0.051	1.336	0.854	✓
MetaVoice-1B	1.2B	Feb 2024	0.382	3.796	0.337	⚠ gap (3)
MioTTS 0.1B	0.1B	Feb 2026	0.369	4.036	0.073	✓
MioTTS 0.6B	0.6B	Feb 2026	0.387	3.417	0.188	✓
MiraTTS	0.5B	Dec 2025	0.505	3.726	0.181	✓
Miso TTS 8B	8.2B	May 2026	0.440	3.860	0.481	⚠ gap (3,4)
MOSS-TTS v1.0	8B	Feb 2026	0.731	4.059	0.030	⚠ gap (3)
MOSS-TTS v1.5	8B	May 2026	0.699	4.050	0.060	✓
MOSS-TTS-Nano	100M	Apr 2026	0.642	3.950	0.147	✓
NeuTTS Air	748M	Sep 2025	0.298	3.510	0.569	✓
NeuTTS Nano	229M	Dec 2025	0.219	3.429	0.610	✓
OmniVoice	~1B	Mar 2026	0.751	4.042	0.125	✓
OpenVoice v2	~100M	Apr 2024	0.247	4.048	0.075	✓
OuteTTS 1.0 1B	1B	Apr 2025	0.466	3.598	0.145	✓
Pocket-TTS	100M	Jan 2026	0.549	4.075	0.067	✓
Qwen3-TTS 1.7B (CUDA-graph)	1.7B	Jan 2026	0.629	3.938	0.077	✓
Sesame CSM-1B	1B	Mar 2025	0.745	4.193	0.179	✓
Step-Audio-EditX	3B	Oct 2025	0.457	4.192	0.101	✓
StyleTTS 2	~148M	Jun 2023	0.297	4.328	0.115	✓
VibeVoice 1.5B	1.5B	Aug 2025	0.705	3.802	0.094	✓
VibeVoice 7B	7B	Sep 2025	0.671	3.965	0.051	✓
VoxCPM2 2B	2B	Apr 2026	0.533	3.596	0.040	✓
WavTTS 0.67B	0.67B	May 2026	0.666	4.113	0.208	✓
ZipVoice 123M	123M	Jun 2025	0.492	4.151	0.070	⚠ gap (2)
Zonos v0.1	1.6B	Feb 2025	0.657	3.973	0.078	⚠ gap (3)
Zonos2	8B (MoE, ~900M active)	Jun 2026	0.355	4.282	0.082	✓

Scored over the 5 bench prompts (thin — WER is a failure-detector, not a fine ranking). Checkpoints: UTMOS utmos22_strong (SpeechMOS), SIM canonical UniSpeech-SAT wavlm_large_finetune, WER Whisper-large-v3. Method follows seed-tts-eval. Human votes are the preference ground truth; these are objective backstops.