doupoa
一个不甘落后的热血青年!
Ping通途说

CosyVoice2-0.5B在Windows下本地完全部署、最小化部署

1. 克隆项目

确保你的设备上安装了Git Git - Downloads

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
cd CosyVoice
git submodule update --init --recursive

2. 创建虚拟环境

尝试过直接在windows直接安装pynini,编译过程中缺少一个Linux独有的OpenFST关键依赖库。因此必须通过Conda实现安装

安装 Conda / MiniConda: 请参阅 Download Now | Anaconda

安装后在Win开始菜单中找到 Anaconda Prompt 并打开,此时你的终端应该是 :

(base) C:\User\Administrator >

conda create -n cosyvoice python=3.10
conda activate cosyvoice
conda install -y -c conda-forge pynini==2.1.5

注意在执行 conda activate cosyvoice 后,确保你的终端 (base)变成 (cosyvoice)再执行下一步安装,否则会安装在系统Python中。

3. 安装所需库

直接安装就行了,如果出现缺少了哪个库就手动安装一下。比如(Cython)

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

4. 下载模型

CosyVoice语音生成大模型2.0-0.5B · 模型库 官网的介绍给我写的懵懵的,如下图:

https://doupoa.site/wp-content/uploads/2025/02/1739806585-image-1024x617.png

但我们只要部署 CosyVoice2 - 0.5B,只用下载第一个模型就可以了。如果你需要下载其他版本请自行操作。(直接全部复制粘贴下了快一个小时了,阿里源都给我下限速了)

注:Webui支持4种不同的推理模式:预训练音色、3s极速复刻、跨语种复刻、自然语言控制,以往的CosyVoice1要实现以上功能需要分为4个模型。现在CosyVoice2 - 0.5B一个模型就能完成四种功能!

其中,自然语言控制在WebUI中使用受限,如需体验完整功能请使用代码推理或等待官方后续更新。或者参阅新一篇文章中的解决方案:CosyVoice2实现音色保存及推理 < Ping通途说

from modelscope import snapshot_download
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')

5. 测试

官方原文档给的是CosyVoice1.0的使用方法,我们先以启动WebUI为例。

打开webui.py的源码,可以看到默认加载的就是CosyVoice2的模型。直接运行python webui.py 即可。

https://doupoa.site/wp-content/uploads/2025/02/1739852762-image.png

5.1 可能出现的问题

如果启动时出现pydoc.ErrorDuringImport: problem in cosyvoice.flow.flow_matching - ModuleNotFoundError: No module named 'matcha'错误,请检查CosyVoice-main\third_party\Matcha-TTS 下是否有文件,在官方Git项目中这一块是使用了外链。如果没有请自行下载压缩包并解压

(250321 - 您可以直接执行 pip install matcha-tts 下载Matcha-TTS,而无需手动拉取源项目)

Matcha-TTS/configs at dd9105b34bf2be2230f4aa1e4769fb586a3c824e · shivammehta25/Matcha-TTS · GitHub

重新运行webui.py,可以看到成功进入webui界面。

https://doupoa.site/wp-content/uploads/2025/02/1739853185-image-1024x496.png

预训练音色为空的情况:

CosyVoice2-0.5B 没有 spk2info.pt ·议题 #729 ·FunAudioLLM/CosyVoice

根据上面的issus,需要手动下载spk2info.pt文件粘贴到pretrained_models/CosyVoice2-0.5B中,随后重新运行webui.py就能看到预训练模型:

https://doupoa.site/wp-content/uploads/2025/02/1739859790-image.png

以《饿殍·明末千里行》中满穗配音为基准进行各项测试,测试结果如下:

原声:

我知道,那件事之后,良爷可能觉得有些事都是老天定的,人怎么做都没用,但我觉得不是这样的。

3s急速复刻:

CosyVoice 2.0 已发布!与 1.0 版相比,新版本提供了更准确、更稳定、更快和更好的语音生成能力。

有情感的语音生成:

在他讲述那个荒诞故事的过程中,他突然[laughter]停下来,因为他自己也被逗笑了[laughter]。

方言控制:

用四川话说这句话 | 收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。

5.2 合成效果不满意

一般跟提示语音、提示文本以及提示语音时长有关系,提示语音中包含叹气、换气、喘气(正常的)、杂音等噪音会被模型学习,因此需要手动将音频中噪声进行清除。可以使用Adobe Audition 或者任意一款视频编辑软件(剪映)即可处理。

原语音示例 - 安比 (采集自绝区零官网

合成语音:

从不谈起自己的故事,仿佛没有过去,是个谜一般的少女。性格沉着冷静,战斗风格异常干练高效,像是经历过常年的训练。

可以听出语音包含换气,在剪辑软件中将换气声去除。

https://doupoa.site/wp-content/uploads/2025/02/1742525578-image.png

更正后语音示例

合成语音:

可以发现后续生成的语音没有了原始音频中的换气声,但最终合成的效果与角色本身懒惰音色有一定差别。若最终效果依然不满意,可以尝试延长样本语音时长

6. 最小化部署(250321更新)

成功运行了环境是好事,但不可能每次都要使用webui来手动转换音频。走过所有部署流程后,我们应该都知道哪些东西是没有必要安装的。

根据官方提供的使用案例,可以通过以下代码直接进行生成。

import sys
sys.path.append('third_party/Matcha-TTS') # 使用pip安装的matcha-tts可删除此行
from cosyvoice.cli.cosyvoice import CosyVoice, CosyVoice2
from cosyvoice.utils.file_utils import load_wav
import torchaudio

cosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B', load_jit=False, load_trt=False, fp16=False)

# 3秒复刻
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k, stream=False)):
    torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)

# 精细微调,即情感生成
for i, j in enumerate(cosyvoice.inference_cross_lingual('在他讲述那个荒诞故事的过程中,他突然[laughter]停下来,因为他自己也被逗笑了[laughter]。', prompt_speech_16k, stream=False)):
    torchaudio.save('fine_grained_control_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)

# 指导生成
for i, j in enumerate(cosyvoice.inference_instruct2('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。', '用四川话说这句话', prompt_speech_16k, stream=False)):
    torchaudio.save('instruct_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)

因此最小化部署CosyVoice2 - 0.5B,我们只需要准备以下依赖:

  • main.py - 你的代码
  • Matcha-TTS - CosyVoice2实现的关键模块 可使用 pip install matcha-tts 直接安装
  • requirements.txt - 项目所需的库
  • pretrained_models/CosyVoice2-0.5B - CosyVoice2模型
  • Pynini - 主要用于文本检查和语义纠错。conda install -y -c conda-forge pynini==2.1.5

requirements.txt,仅供参考。

--extra-index-url https://download.pytorch.org/whl/cu121
--extra-index-url https://aiinfra.pkgs.visualstudio.com/PublicPackages/_packaging/onnxruntime-cuda-12/pypi/simple/ # https://github.com/microsoft/onnxruntime/issues/21684
conformer==0.3.2
diffusers==0.29.0
gdown==5.1.0
gradio==5.4.0
grpcio==1.57.0
grpcio-tools==1.57.0
hydra-core==1.3.2
HyperPyYAML==1.2.2
inflect==7.3.1
librosa==0.10.2
lightning==2.2.4
matplotlib==3.7.5
modelscope==1.15.0
networkx==3.1
omegaconf==2.3.0
onnx==1.16.0
onnxruntime==1.18.0
openai-whisper==20231117
protobuf==4.25
pydantic==2.7.0
pyworld==0.3.4
rich==13.7.1
soundfile==0.12.1
torch==2.3.1
torchaudio==2.3.1
transformers==4.40.1
WeTextProcessing==1.0.3

6.1示例

准备以下目录文件。

关于cosyvoice文件夹:尝试过pip安装,但与文章所述的cosyvoice无关(半成品)。因此您依然需要从Github拉取最新的Cosyvoice依赖库 使用。

https://doupoa.site/wp-content/uploads/2025/02/1742523994-image.png

运行main.py可以看到以下几种功能,光是看选项描述您应该也能知道每个选项的功能,在此不多再介绍。

https://doupoa.site/wp-content/uploads/2025/02/1742525954-image.png
main.py 示例代码
import os
import time

import torch
import torchaudio
from cosyvoice.cli.cosyvoice import CosyVoice2
from cosyvoice.utils.file_utils import load_wav
from tqdm import tqdm

# 初始化CosyVoice2模型,指定预训练模型路径,不加载jit和trt模型,使用fp32
cosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B',
                       load_jit=True, load_trt=False, fp16=True)

# 设置最大音量
max_val = 1.0
# 设置说话人信息文件的路径
spk2info_path = f'spk2info.pt'


# 如果说话人信息文件存在,则加载
if os.path.exists(spk2info_path):
    spk2info = torch.load(
        spk2info_path, map_location=cosyvoice.frontend.device)
else:
    spk2info = {}


def load_speaker_info(speaker, retrain=False):
    load_start = time.time()
    if retrain:
        if speaker in spk2info:
            del spk2info[speaker]
    if speaker not in spk2info:
        prompt_speech_16k = load_wav(f'prompt/{speaker}.wav', 16000)
        print(f'Extracting speaker info for {speaker}...')
        train_start = time.time()
        # 获取音色embedding
        embedding = cosyvoice.frontend._extract_spk_embedding(
            prompt_speech_16k)
        # 获取语音特征
        prompt_speech_resample = torchaudio.transforms.Resample(
            orig_freq=16000, new_freq=cosyvoice.sample_rate)(prompt_speech_16k)
        speech_feat, speech_feat_len = cosyvoice.frontend._extract_speech_feat(
            prompt_speech_resample)
        # 获取语音token
        speech_token, speech_token_len = cosyvoice.frontend._extract_speech_token(
            prompt_speech_16k)
        # 将音色embedding、语音特征和语音token保存到字典中
        spk2info[speaker] = {'embedding': embedding,
                             'speech_feat': speech_feat, 'speech_token': speech_token}
        # 保存音色embedding
        torch.save(spk2info, spk2info_path)
        print(
            f'Extracting speaker info for {speaker} done!', 'Time:', time.time()-train_start)
    print('Load time:', time.time()-load_start)


# 定义一个文本到语音的函数,参数包括文本内容、是否流式处理、语速和是否使用文本前端处理
def tts_sft(tts_text: str, prompt_text: str, speaker_info: dict, stream=False, speed=1.0, text_frontend=True):
    '''
    参数:
        tts_text:要合成的文本
        prompt_text: 提示文本
        speaker:说话人音频特征
        stream:是否流式处理
        speed:语速
        text_frontend:是否使用文本前端处理

    返回值:
        合成后的音频
    '''

    # 使用tqdm库来显示进度条,对文本进行标准化处理并分割
    for i in tqdm(cosyvoice.frontend.text_normalize(tts_text, split=True, text_frontend=text_frontend)):
        # 提取文本的token和长度
        tts_text_token, tts_text_token_len = cosyvoice.frontend._extract_text_token(
            i)
        # 提取提示文本的token和长度
        prompt_text_token, prompt_text_token_len = cosyvoice.frontend._extract_text_token(
            prompt_text)
        # 获取说话人的语音token长度,并转换为torch张量,移动到指定设备
        speech_token_len = torch.tensor(
            [speaker_info['speech_token'].shape[1]], dtype=torch.int32).to(cosyvoice.frontend.device)
        # 获取说话人的语音特征长度,并转换为torch张量,移动到指定设备
        speech_feat_len = torch.tensor(
            [speaker_info['speech_feat'].shape[1]], dtype=torch.int32).to(cosyvoice.frontend.device)
        # 构建模型输入字典,包括文本、文本长度、提示文本、提示文本长度、LLM提示语音token、LLM提示语音token长度、流提示语音token、流提示语音token长度、提示语音特征、提示语音特征长度、LLM嵌入和流嵌入
        model_input = {'text': tts_text_token, 'text_len': tts_text_token_len,
                       'prompt_text': prompt_text_token, 'prompt_text_len': prompt_text_token_len,
                       'llm_prompt_speech_token': speaker_info['speech_token'], 'llm_prompt_speech_token_len': speech_token_len,
                       'flow_prompt_speech_token': speaker_info['speech_token'], 'flow_prompt_speech_token_len': speech_token_len,
                       'prompt_speech_feat': speaker_info['speech_feat'], 'prompt_speech_feat_len': speech_feat_len,
                       'llm_embedding': speaker_info['embedding'], 'flow_embedding': speaker_info['embedding']}
        # 使用模型进行文本到语音的转换,并迭代输出结果
        for model_output in cosyvoice.model.tts(**model_input, stream=stream, speed=speed):
            yield model_output


def synthesis(tts_text: str, speaker: str):  # 生成语音
    # 获取说话人信息
    prompt_text = open(f'prompt/{speaker}.txt', 'r', encoding='utf-8').read()
    # 遍历每个文本的生成结果
    for i, j in enumerate(tts_sft(tts_text, prompt_text, speaker_info=spk2info[speaker], stream=False, speed=1.0, text_frontend=True)):
        # 保存生成的语音到文件,文件名包含文本的前四个字符
        torchaudio.save(f"output/{speaker}_{tts_text[0:4]}_{time.strftime('%Y%m%d%H%M%S', time.localtime())}.wav", j['tts_speech'], cosyvoice.sample_rate)
    print("生成完成!")


speaker = ""

while True:
    os.system("cls")
    spk2info_list = ",".join(list(spk2info.keys()))
    print(f"当前音色:{speaker}") if speaker else print("当前未选择音色")
    print("""
1. 查看可用音色
2. 加载音色
3. 生成语音
4. 删除音色
5. 退出
""")
    try:
        choice = int(input("请输入选项:"))
        if choice == 1:  # 查看可用音色
            if spk2info_list:
                print("可用音色:", spk2info_list)
                time.sleep(3)
            else:
                print("当前没有可用的音色")
                time.sleep(2)
            continue

        elif choice == 2:  # 加载音色
            os.system("cls")
            speaker_name = input("请输入要加载的音色名称:")
            if speaker_name not in spk2info.keys():
                retrain = input("音色不存在,是否训练?[Y/N]")
                if "y" in retrain or "Y" in retrain:
                    load_speaker_info(speaker_name)
                    speaker = speaker_name
                elif "n" in retrain or "N" in retrain:
                    continue
                else:
                    print("输入错误,请重新输入")
                    time.sleep(1)
                    continue
            else:
                speaker = speaker_name
                print("音色加载成功!")
                time.sleep(1)

        elif choice == 3:  # 生成语音
            if not speaker:
                print("请先选择音色")
                time.sleep(1)
                continue
            os.system("cls")
            print("当前音色:", speaker)
            text = input("请输入要合成的文本:")
            synthesis(text, speaker)

        elif choice == 4:  # 删除音色
            os.system("cls")
            delete_speaker = input("请输入要删除的音色名称:")
            if delete_speaker not in spk2info.keys():
                print("音色不存在")
                time.sleep(1)
                continue
            else:
                spk2info.pop(delete_speaker)
                torch.save(spk2info, "spk2info.pt")
                print("音色删除成功!")
                time.sleep(1)

        elif choice == 5:
            break
        else:
            print("输入错误,请重新输入")
            time.sleep(1)
    except Exception as e:
        print("输入错误,请重新输入")
        print(e)
        time.sleep(1)
print("程序即将结束..")
mp3_to_wav.py 示例代码
from pydub import AudioSegment
import os

# 扫描指定目录下的所有mp3文件
convert_list = []
for root, dirs, files in os.walk("prompt"):
    for file in files:
        if file.endswith(".mp3"):
            convert_list.append(os.path.join(root, file))

# 是否删除源文件?
delete_mp3 = True

mp3_file:str
for mp3_file in convert_list:
    sound = AudioSegment.from_mp3(mp3_file)
    sound.export(mp3_file.lower().replace(".mp3", ".wav"),format="wav")
    if delete_mp3:
        os.remove(mp3_file)
print("转换完成")

6.2 相关语音包合集

绝区零语音包(1.6 中日英韩 持续更新) - 哔哩哔哩

原神语音包(5.4 中日英韩 持续更新) - 哔哩哔哩

崩坏星穹铁道语音包(3.1 中日英韩 持续更新) - 哔哩哔哩

鸣潮语音包(1.4 中日英韩 持续更新) - 哔哩哔哩

3
0
赞赏
# # # # # #
首页      LLM      CosyVoice2      CosyVoice2-0.5B在Windows下本地完全部署、最小化部署

doupoa

文章作者

诶嘿

发表回复

textsms
account_circle
email

  • CC

    windows 10本地,是否支持仅CPU部署运行?

    3 周前 回复
  • 哈哈

    居然看完了,感谢。我后天值班,不知道能够搞完不。关于模型运行环境和方法没太讲,我这零基础入坑有点困难。

    1 月前 回复
    • doupoa博主

      @哈哈: 非常感谢您的阅读!如果遇到任何问题请随时评论

      3 周前

Ping通途说

CosyVoice2-0.5B在Windows下本地完全部署、最小化部署
1. 克隆项目 确保你的设备上安装了Git Git - Downloads git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git cd CosyVoice git submodule update --init --recurs…
扫描二维码继续阅读
2025-02-18

Optimized by WPJAM Basic