TTS Bench — Speed — linux-default

Rig: linux-3090 — AMD Ryzen 9 5900XT 16-Core Processor · NVIDIA GeForce RTX 3090 24GB · 63 GB RAM · Linux 6.8.0-117-generic

Label: default voice

TTFA = time to first audio (ms; lower is better). RTF = real-time factor (× realtime; higher is better; e.g. 10× means 10 sec of audio generated per 1 sec of compute). Cold = first run after process start; warm = subsequent runs.

Speed winners

Fastest predefined-voice: Kokoro (cuda) — 97.68× warm RTF, 73ms warm TTFA

Fastest cloning-capable: StyleTTS 2 (cuda) — 33.04× warm RTF, 253ms warm TTFA

Model	Device	TTFA cold	TTFA warm	RTF cold	RTF warm	Peak RAM	Peak VRAM	Size
Kokoro	cuda	491ms	73ms	15.15×	97.68×	1.85 GB	879 MB	82M
Piper	cpu	221ms	180ms	28.71×	37.14×	477 MB	—	~25MB
StyleTTS 2	cuda	1.36s	253ms	6.36×	33.04×	2.30 GB	1.44 GB	~148M
StyleTTS 2	cpu	3.77s	261ms	5.77×	32.12×	2.41 GB	—	~148M
LuxTTS	cuda	391ms	215ms	13.18×	24.98×	2.39 GB	987 MB	123M
OpenVoice v2	cuda	1.78s	363ms	3.48×	16.19×	2.95 GB	1.31 GB	~100M
longcat_1b	cuda	1.43s	879ms	5.37×	8.65×	—	5.71 GB	—
MiraTTS	cuda	1.86s	1.23s	5.25×	8.44×	3.75 GB	1.28 GB	0.5B
OmniVoice	cuda	1.31s	759ms	4.95×	8.35×	1.99 GB	2.11 GB	~1B
Kokoro	cpu	1.37s	1.22s	5.80×	6.96×	1.65 GB	—	82M
Supertonic 3	cpu	1.28s	1.28s	5.87×	5.89×	612 MB	—	99M
Coqui XTTS-v2	cuda	1.95s	1.76s	4.19×	4.88×	2.08 GB	2.12 GB	750M
Soprano 1.1 80M	cuda	1.37s	1.39s	4.87×	4.86×	1.85 GB	325 MB	80M
Chatterbox Turbo	cuda	1.88s	1.54s	3.68×	4.66×	2.12 GB	3.01 GB	744M
Pocket-TTS	cpu	163ms	148ms	4.07×	4.05×	1.75 GB	—	100M
longcat_3p5b	cuda	2.38s	1.84s	3.01×	3.90×	—	14.96 GB	—
KittenTTS Nano 0.1	cpu	2.39s	2.07s	3.29×	3.72×	330 MB	—	<100M
Higgs Audio v3 TTS	cuda	2.31s	2.36s	3.08×	3.13×	—	—	4B
Qwen3-TTS 1.7B (CUDA-graph)	cuda	9.45s	2.01s	0.70×	3.04×	2.38 GB	4.89 GB	1.7B
F5-TTS v1	cuda	2.01s	1.43s	2.22×	3.03×	2.27 GB	802 MB	330M
Soprano 1.1 80M	cpu	2.17s	2.23s	3.13×	3.01×	1.33 GB	—	80M
NeuTTS Nano	cuda	859ms	311ms	2.26×	3.00×	3.45 GB	3.25 GB	229M
VibeVoice Realtime 0.5B	cuda	3.60s	3.28s	2.45×	2.76×	1.78 GB	2.62 GB	0.5B
Chatterbox	cuda	3.10s	2.46s	1.92×	2.28×	2.07 GB	3.26 GB	1.2B
OpenVoice v2	cpu	6.48s	3.06s	1.07×	2.15×	2.72 GB	—	~100M
VoxCPM2 2B	cuda	3.27s	3.44s	2.11×	2.10×	3.39 GB	5.56 GB	2B
MOSS-TTS-Nano	cuda	4.95s	3.56s	1.67×	2.08×	1.93 GB	971 MB	100M
NeuTTS Nano	cpu	925ms	389ms	1.67×	2.03×	5.61 GB	—	229M
Magpie-TTS	cuda	5.77s	4.40s	1.57×	2.02×	2.68 GB	6.56 GB	357M
VibeVoice 1.5B	cuda	4.17s	4.69s	1.53×	1.83×	1.97 GB	5.26 GB	1.5B
MOSS-TTS v1.5	cuda	4.30s	4.01s	1.51×	1.83×	2.25 GB	22.69 GB	8B
MOSS-TTS v1.0	cuda	4.47s	3.87s	1.54×	1.81×	2.12 GB	22.69 GB	8B
Echo-TTS	cuda	4.94s	4.32s	1.51×	1.73×	1.94 GB	9.14 GB	2.8B
LuxTTS	cpu	1.94s	1.90s	1.68×	1.71×	2.30 GB	—	123M
NeuTTS Air	cuda	1.59s	478ms	1.29×	1.68×	3.88 GB	3.25 GB	748M
NeuTTS Air	cpu	1.60s	554ms	1.11×	1.35×	6.01 GB	—	748M
Step-Audio-EditX	cuda	6.30s	5.45s	1.13×	1.34×	2.89 GB	6.10 GB	3B
DramaBox	cuda	11.30s	7.97s	1.00×	1.21×	3.28 GB	17.38 GB	3.3B
IndexTTS-2	cpu	6.72s	5.67s	0.97×	1.20×	5.67 GB	—	1.5B
MOSS-TTS-Nano	cpu	6.91s	6.09s	1.07×	1.17×	1.30 GB	—	100M
Fish Speech 1.5	cuda	7.12s	6.05s	0.96×	1.11×	2.29 GB	1.76 GB	~500M
IndexTTS-2	cuda	7.25s	5.95s	0.91×	1.08×	2.77 GB	7.57 GB	1.5B
Zonos v0.1	cuda	7.92s	7.22s	0.88×	1.01×	2.74 GB	4.47 GB	1.6B
Qwen3-TTS 1.7B Base	cuda	8.19s	7.01s	0.74×	0.88×	2.21 GB	4.64 GB	1.7B
dots.tts (soar)	cuda	8.61s	8.26s	0.77×	0.81×	—	5.50 GB	2B
Coqui XTTS-v2	cpu	11.98s	11.11s	0.79×	0.80×	3.15 GB	—	750M
Sesame CSM-1B	cuda	9.30s	8.66s	0.71×	0.76×	2.08 GB	3.51 GB	1B
MetaVoice-1B	cuda	8.19s	7.48s	0.66×	0.76×	—	7.98 GB	1.2B
Maya1	cuda	12.34s	12.18s	0.67×	0.74×	2.18 GB	6.75 GB	3B
Chatterbox Turbo	cpu	11.03s	10.58s	0.66×	0.69×	3.87 GB	—	744M
VibeVoice 7B	cuda	13.23s	13.57s	0.59×	0.63×	5.54 GB	11.11 GB	7B
Dia 1.6B-0626	cuda	16.31s	13.83s	0.49×	0.61×	2.19 GB	4.58 GB	1.6B
VibeVoice Realtime 0.5B	cpu	17.64s	15.86s	0.57×	0.55×	6.51 GB	—	0.5B
ZipVoice 123M (4/5 ok)	cpu	15.01s	12.19s	0.43×	0.53×	53.97 GB	—	123M
OuteTTS 1.0 1B	cuda	18.60s	18.21s	0.43×	0.43×	2.41 GB	3.58 GB	1B
OmniVoice	cpu	15.83s	15.35s	0.40×	0.41×	2.99 GB	—	~1B
Chatterbox	cpu	17.21s	16.53s	0.36×	0.37×	4.16 GB	—	1.2B
Miso TTS 8B	cuda	26.02s	22.24s	0.34×	0.35×	2.00 GB	16.34 GB	8.2B
Magpie-TTS	cpu	40.47s	39.78s	0.25×	0.26×	13.55 GB	—	357M
VoxCPM2 2B	cpu	29.43s	29.16s	0.24×	0.24×	6.44 GB	—	2B
Fish Speech S2-Pro	cuda	39.76s	39.69s	0.18×	0.18×	3.82 GB	19.93 GB	4B
VibeVoice 1.5B	cpu	43.47s	52.25s	0.17×	0.17×	11.26 GB	—	1.5B
Qwen3-TTS 1.7B Base	cpu	38.52s	35.33s	0.15×	0.17×	9.12 GB	—	1.7B
Zonos v0.1	cpu	62.09s	62.23s	0.12×	0.12×	4.86 GB	—	1.6B
Sesame CSM-1B	cpu	52.98s	57.59s	0.12×	0.12×	5.95 GB	—	1B
Mars5-TTS	cuda	60.14s	58.72s	0.13×	0.12×	2.60 GB	6.80 GB	1.2B
Mars5-TTS	cpu	59.06s	58.01s	0.12×	0.12×	2.64 GB	—	1.2B
Fish Speech 1.5	cpu	76.66s	70.52s	0.10×	0.10×	4.58 GB	—	~500M
F5-TTS v1	cpu	53.94s	55.46s	0.08×	0.08×	2.58 GB	—	330M
Maya1 (2/4 ok)	cpu	62.52s	59.40s	0.08×	0.08×	7.41 GB	—	3B
OuteTTS 1.0 1B (2/5 ok)	cpu	96.51s	93.24s	0.05×	0.05×	4.20 GB	—	1B
ZipVoice 123M	cuda	Skipped — out of GPU memory (model exceeds this GPU's VRAM)

Model

Device

TTFA cold

TTFA warm

RTF cold

RTF warm

Peak RAM

Peak VRAM

Size

Kokoro

cuda

491ms

73ms

15.15×

97.68×

1.85 GB

879 MB

82M

Piper

cpu

221ms

180ms

28.71×

37.14×

477 MB

—

~25MB

StyleTTS 2

cuda

1.36s

253ms

6.36×

33.04×

2.30 GB

1.44 GB

~148M

StyleTTS 2

cpu

3.77s

261ms

5.77×

32.12×

2.41 GB

—

~148M

LuxTTS

cuda

391ms

215ms

13.18×

24.98×

2.39 GB

987 MB

123M

OpenVoice v2

cuda

1.78s

363ms

3.48×

16.19×

2.95 GB

1.31 GB

~100M

longcat_1b

cuda

1.43s

879ms

5.37×

8.65×

—

5.71 GB

—

MiraTTS

cuda

1.86s

1.23s

5.25×

8.44×

3.75 GB

1.28 GB

0.5B

OmniVoice

cuda

1.31s

759ms

4.95×

8.35×

1.99 GB

2.11 GB

~1B

Kokoro

cpu

1.37s

1.22s

5.80×

6.96×

1.65 GB

—

82M

Supertonic 3

cpu

1.28s

5.87×

5.89×

612 MB

—

99M

Coqui XTTS-v2

cuda

1.95s

1.76s

4.19×

4.88×

2.08 GB

2.12 GB

750M

Soprano 1.1 80M

cuda

1.37s

1.39s

4.87×

4.86×

1.85 GB

325 MB

80M

Chatterbox Turbo

cuda

1.88s

1.54s

3.68×

4.66×

2.12 GB

3.01 GB

744M

Pocket-TTS

cpu

163ms

148ms

4.07×

4.05×

1.75 GB

—

100M

longcat_3p5b

cuda

2.38s

1.84s

3.01×

3.90×

—

14.96 GB

—

KittenTTS Nano 0.1

cpu

2.39s

2.07s

3.29×

3.72×

330 MB

—

<100M

Higgs Audio v3 TTS

cuda

2.31s

2.36s

3.08×

3.13×

—

Qwen3-TTS 1.7B (CUDA-graph)

cuda

9.45s

2.01s

0.70×

3.04×

2.38 GB

4.89 GB

1.7B

F5-TTS v1

cuda

2.01s

1.43s

2.22×

3.03×

2.27 GB

802 MB

330M

Soprano 1.1 80M

cpu

2.17s

2.23s

3.13×

3.01×

1.33 GB

—

80M

NeuTTS Nano

cuda

859ms

311ms

2.26×

3.00×

3.45 GB

3.25 GB

229M

VibeVoice Realtime 0.5B

cuda

3.60s

3.28s

2.45×

2.76×

1.78 GB

2.62 GB

0.5B

Chatterbox

cuda

3.10s

2.46s

1.92×

2.28×

2.07 GB

3.26 GB

1.2B

OpenVoice v2

cpu

6.48s

3.06s

1.07×

2.15×

2.72 GB

—

~100M

VoxCPM2 2B

cuda

3.27s

3.44s

2.11×

2.10×

3.39 GB

5.56 GB

MOSS-TTS-Nano

cuda

4.95s

3.56s

1.67×

2.08×

1.93 GB

971 MB

100M

NeuTTS Nano

cpu

925ms

389ms

1.67×

2.03×

5.61 GB

—

229M

Magpie-TTS

cuda

5.77s

4.40s

1.57×

2.02×

2.68 GB

6.56 GB

357M

VibeVoice 1.5B

cuda

4.17s

4.69s

1.53×

1.83×

1.97 GB

5.26 GB

1.5B

MOSS-TTS v1.5

cuda

4.30s

4.01s

1.51×

1.83×

2.25 GB

22.69 GB

MOSS-TTS v1.0

cuda

4.47s

3.87s

1.54×

1.81×

2.12 GB

22.69 GB

Echo-TTS

cuda

4.94s

4.32s

1.51×

1.73×

1.94 GB

9.14 GB

2.8B

LuxTTS

cpu

1.94s

1.90s

1.68×

1.71×

2.30 GB

—

123M

NeuTTS Air

cuda

1.59s

478ms

1.29×

1.68×

3.88 GB

3.25 GB

748M

NeuTTS Air

cpu

1.60s

554ms

1.11×

1.35×

6.01 GB

—

748M

Step-Audio-EditX

cuda

6.30s

5.45s

1.13×

1.34×

2.89 GB

6.10 GB

DramaBox

cuda

11.30s

7.97s

1.00×

1.21×

3.28 GB

17.38 GB

3.3B

IndexTTS-2

cpu

6.72s

5.67s

0.97×

1.20×

5.67 GB

—

1.5B

MOSS-TTS-Nano

cpu

6.91s

6.09s

1.07×

1.17×

1.30 GB

—

100M

Fish Speech 1.5

cuda

7.12s

6.05s

0.96×

1.11×

2.29 GB

1.76 GB

~500M

IndexTTS-2

cuda

7.25s

5.95s

0.91×

1.08×

2.77 GB

7.57 GB

1.5B

Zonos v0.1

cuda

7.92s

7.22s

0.88×

1.01×

2.74 GB

4.47 GB

1.6B

Qwen3-TTS 1.7B Base

cuda

8.19s

7.01s

0.74×

0.88×

2.21 GB

4.64 GB

1.7B

dots.tts (soar)

cuda

8.61s

8.26s

0.77×

0.81×

—

5.50 GB

Coqui XTTS-v2

cpu

11.98s

11.11s

0.79×

0.80×

3.15 GB

—

750M

Sesame CSM-1B

cuda

9.30s

8.66s

0.71×

0.76×

2.08 GB

3.51 GB

MetaVoice-1B

cuda

8.19s

7.48s

0.66×

0.76×

—

7.98 GB

1.2B

Maya1

cuda

12.34s

12.18s

0.67×

0.74×

2.18 GB

6.75 GB

Chatterbox Turbo

cpu

11.03s

10.58s

0.66×

0.69×

3.87 GB

—

744M

VibeVoice 7B

cuda

13.23s

13.57s

0.59×

0.63×

5.54 GB

11.11 GB

Dia 1.6B-0626

cuda

16.31s

13.83s

0.49×

0.61×

2.19 GB

4.58 GB

1.6B

VibeVoice Realtime 0.5B

cpu

17.64s

15.86s

0.57×

0.55×

6.51 GB

—

0.5B

ZipVoice 123M (4/5 ok)

cpu

15.01s

12.19s

0.43×

0.53×

53.97 GB

—

123M

OuteTTS 1.0 1B

cuda

18.60s

18.21s

0.43×

2.41 GB

3.58 GB

OmniVoice

cpu

15.83s

15.35s

0.40×

0.41×

2.99 GB

—

~1B

Chatterbox

cpu

17.21s

16.53s

0.36×

0.37×

4.16 GB

—

1.2B

Miso TTS 8B

cuda

26.02s

22.24s

0.34×

0.35×

2.00 GB

16.34 GB

8.2B

Magpie-TTS

cpu

40.47s

39.78s

0.25×

0.26×

13.55 GB

—

357M

VoxCPM2 2B

cpu

29.43s

29.16s

0.24×

6.44 GB

—

Fish Speech S2-Pro

cuda

39.76s

39.69s

0.18×

3.82 GB

19.93 GB

VibeVoice 1.5B

cpu

43.47s

52.25s

0.17×

11.26 GB

—

1.5B

Qwen3-TTS 1.7B Base

cpu

38.52s

35.33s

0.15×

0.17×

9.12 GB

—

1.7B

Zonos v0.1

cpu

62.09s

62.23s

0.12×

4.86 GB

—

1.6B

Sesame CSM-1B

cpu

52.98s

57.59s

0.12×

5.95 GB

—

Mars5-TTS

cuda

60.14s

58.72s

0.13×

0.12×

2.60 GB

6.80 GB

1.2B

Mars5-TTS

cpu

59.06s

58.01s

0.12×

2.64 GB

—

1.2B

Fish Speech 1.5

cpu

76.66s

70.52s

0.10×

4.58 GB

—

~500M

F5-TTS v1

cpu

53.94s

55.46s

0.08×

2.58 GB

—

330M

Maya1 (2/4 ok)

cpu

62.52s

59.40s

0.08×

7.41 GB

—

OuteTTS 1.0 1B (2/5 ok)

cpu

96.51s

93.24s

0.05×

4.20 GB

—

ZipVoice 123M

cuda

Skipped — out of GPU memory (model exceeds this GPU's VRAM)