Zonos:开源TTS模型爆火!克隆你的声音,支持5国语言,还能调节喜怒哀乐

Written by 30115776@qq.com

🎬 百万播放博主的秘密武器!开源AI声优Zonos上线:你的声音能说五国语言,情感一键切换

你是否遇到过这样的问题?

🎧 想要将中文视频拓展到海外市场,却因为重录多语言版本而累到声嘶力竭;
🎙️ 使用商用TTS服务,却发现生成的语音情感僵硬,毫无生动感;
💸 想克隆自己的声音,却发现专业工具收费高昂,甚至高达每秒0.2美元……

今天,我们将为你介绍ZyphraAI推出的Zonos——一款开源的TTS模型,它正在用开源的力量解决这些问题!Zonos基于20万小时的多语言语音数据训练,不仅能克隆你的声音,支持中、英、日、法、德五国语言,还能通过情感滑块调节喜怒哀乐。更令人振奋的是,所有代码均在Apache 2.0许可下开源。接下来,就让我们一起探索如何免费打造专属的AI声优!

🚀 快速阅读

  • Zonos简介:ZyphraAI推出的高保真多语言TTS模型,支持语音克隆和情感控制。
  • 核心功能:零样本TTS、语音克隆、音频前缀输入、多语言支持、情感调节。
  • 技术原理:基于eSpeak工具进行文本预处理,使用Transformer或混合骨干网络预测DAC标记,通过自编码器生成高质量语音。
  • 运行方式:提供Python代码示例和Gradio界面,方便快速上手。

Zonos 是什么

Zonos 是 ZyphraAI 推出的一个高保真文本到语音(TTS)模型。它包含两个版本的模型:一个是拥有 16 亿参数的 Transformer 模型,另一个是 SSM 混合模型,均在 Apache 2.0 许可下开源。Zonos 可以根据文本提示和说话人嵌入生成自然、高表达性的语音,支持语音克隆功能,用户可以调节语速、音高、情感等参数,输出采样率为 44kHz。

Zonos 基于约 20 万小时的多语言语音数据训练,主要支持英语,同时对其他语言如日语、中文、法语和德语也有一定的支持。该模型提供了优化的推理引擎,能够快速生成语音,适合实时应用。

Zonos的核心功能

  1. 零样本TTS与语音克隆:输入文本和10-30秒的说话者样本,即可生成高质量的TTS输出。
  2. 音频前缀输入:通过添加文本和音频前缀,更精确地匹配说话者的声音,实现难以通过说话者嵌入复制的行为,如耳语。
  3. 多语言支持:支持英语、日语、中文、法语和德语。
  4. 音频质量和情感控制:支持精细控制语速、音高、最大频率、音频质量和各种情感,如快乐、愤怒、悲伤等。

Zonos 的技术原理

  • 文本预处理:基于 eSpeak 工具进行文本归一化和音素化,将输入文本转换为音素序列。
  • 特征预测:使用 Transformer 或混合骨干网络(Hybrid Backbone)预测 DAC(Discrete Audio Codec)标记。
  • 语音生成:基于预测的 DAC 标记,使用自编码器(Autoencoder)解码生成高质量的语音输出。

如何运行 Zonos

1. Python 示例

import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# 加载预训练模型
model = Zonos.from_pretrained(\"Zyphra/Zonos-v0.1-transformer\", device=\"cuda\")

# 加载音频文件并生成说话人嵌入
wav, sampling_rate = torchaudio.load(\"assets/exampleaudio.mp3\")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# 创建条件字典
cond_dict = make_cond_dict(text=\"Hello, world!\", speaker=speaker, language=\"en-us\")
conditioning = model.prepare_conditioning(cond_dict)

# 生成语音
codes = model.generate(conditioning)
wavs = model.autoencoder.decode(codes).cpu()

# 保存生成的语音
torchaudio.save(\"sample.wav\", wavs[0], model.autoencoder.sampling_rate)

2. Gradio 界面(推荐)

uv run gradio_interface.py
# 或者
python gradio_interface.py

这将生成一个 sample.wav 文件在你的项目根目录中。为了提高效率,建议使用 Gradio 界面进行重复采样,因为最小示例每次运行时都需要重新加载模型。

资源

Zonos不仅是一款开源的TTS工具,更是一个强大的创意助手。无论是内容创作者、开发者还是语音技术爱好者,都能从Zonos中找到无限可能。快来加入开源社区,体验Zonos带来的语音克隆和情感控制的奇妙之旅吧!

30115776@qq.com

Pretium lorem primis lectus donec tortor fusce morbi risus curae. Dignissim lacus massa mauris enim mattis magnis senectus montes mollis taciti accumsan semper nullam dapibus netus blandit nibh aliquam metus morbi cras magna vivamus per risus.

Sa2VA别再用PS抠图了!字节跳动开源Sa2VA一句话自动分割视频,连头发丝都精准

KTransformers:国产框架助力单卡24GB显存高效运行DeepSeek-R1 671B大模型,推理速度提升28倍

发表评论