免费开源TTS引擎Kokoro整合包!小白也能轻松上手!

作者:微信小助手

发布时间:2025-02-05T12:32:10

厌倦了笨重、昂贵的TTS(文本转语音)解决方案吗?可以试试最近火热的 Kokoro:一款拥有8200万参数的开放式TTS模型,它以轻巧的架构实现了媲美大型模型的音质,同时拥有更快的速度、更简单的部署方式和更高的成本效益。

  Kokoro 的核心优势:

  • 卓越的音质:
     即使参数规模较小,Kokoro 也能生成自然流畅、富有表现力的语音。
  • 轻量高效:
     占用资源少,运行速度快,对硬件要求低。
  • 易于部署:
     得益于 Apache 2.0 许可,你可以将 Kokoro 部署到任何地方,从生产环境到个人项目,无需担心版权问题。
  • 多语言支持:
     支持中文、英语、日语、法语、意大利语、葡萄牙语、西班牙语、印地语共 8 种语言的文字合成配音,满足你多样化的需求。
  • 完全免费且开源:
     你可以自由地使用、修改和分发 Kokoro。

  快速上手:简单易用的工具链

为了更轻松地使用 Kokoro 以及对接 pyVideoTrans视频翻译软件,我们提供了一套开箱即用的工具 Kokoro-uiapi (https://github.com/jianchang512/kokoro-uiapi )

  1. Web UI 界面:

    一个简洁直观的 Web UI 界面,让你无需编写代码即可体验 Kokoro 的强大功能。

    Web 界面效果:

    • 功能丰富:
       支持文字转语音、SRT 字幕配音、在线试听和下载语音文件、字幕对齐等功能。
    • 操作简单:
       只需在浏览器中打开指定地址(项目启动后默认地址:http://127.0.0.1:5066),即可开始使用。
  2. OpenAI SDK 兼容 API:

    如果你已经在使用 OpenAI 的 TTS 服务,那么你可以无缝切换到 Kokoro,无需修改大量代码。

    请求示例:

       

    json

    {
    "input": "需要配音的文字",
    "voice": "配音角色",
    "speed": 1.0  // 语速,默认为 1.0
    }

    成功响应: 返回 MP3 音频数据。

    OpenAI SDK 使用示例:

       

    python

    from openai import OpenAI

    client = OpenAI(
        api_key='123456',  # 随意填写
        base_url='http://127.0.0.1:5066/v1'
    )

    try:
        response = client.audio.speech.create(
            model='tts-1',  #  模型名称,随意填写
            input='你好啊,亲爱的朋友们',
            voice='zf_xiaobei',
            response_format='mp3',
            speed=1.0
        )
        with open('./test_openai.mp3''wb'as f:
            f.write(response.content)
        print("MP3 file saved successfully to test_openai.mp3")
    except Exception as e:
        print(f"An error occurred: {e}")
    • API 地址:
       http://127.0.0.1:5066/v1/audio/speech (项目启动后默认地址)
    • 请求方法:
       POST
    • 请求数据类型:
       application/json
    • 接口兼容:
       API 接口与 OpenAI TTS 接口高度兼容,只需修改 base_url 即可。
    • 使用方便:
       你可以像使用 OpenAI SDK 一样使用 Kokoro 的 API。

  安装指南:

你可以根据自己的需求选择不同的安装方式。

  1. Windows 整合包:

    • 下载地址:
       https://github.com/jianchang512/kokoro-uiapi/releases
    • 安装步骤:
    1. 下载整合包并解压。
    2. 双击 start.bat 启动服务。
  2. Linux/MacOS 源码部署:

    • 已安装 Python 3.8+ (建议 3.10 - 3.11)
    • 已安装 ffmpeg (Linux: apt install ffmpeg 或 yum install ffmpeg; MacOS: brew install ffmpeg)
    • 前提条件:
    • 安装步骤:
    1. 拉取源码: git clone https://github.com/jianchang512/kokoro-uiapi
    2. 创建并激活虚拟环境:
           

      bash

      cd kokoro-uiapi
      python3 -m venv venv
      . venv/bin/activate
    3. 安装依赖: pip3 install -r requirements.txt
    4. 启动服务: python3 app.py

  丰富的角色选择:

Kokoro 提供了多种不同风格的配音角色,满足你不同的应用场景。

  • 英语配音角色:

       

    af_alloy
    af_aoede
    af_bella
    af_jessica
    af_kore
    af_nicole
    af_nova
    af_river
    af_sarah
    af_sky
    am_adam
    am_echo
    am_eric
    am_fenrir
    am_liam
    am_michael
    am_onyx
    am_puck
    am_santa
    bf_alice
    bf_emma
    bf_isabella
    bf_lily
    bm_daniel
    bm_fable
    bm_george
    bm_lewis
  • 中文角色:

       

    zf_xiaobei
    zf_xiaoni
    zf_xiaoxiao
    zf_xiaoyi
    zm_yunjian
    zm_yunxi
    zm_yunxia
    zm_yunyang
  • 日语角色:

       

    jf_alpha
    jf_gongitsune
    jf_nezumi
    jf_tebukuro
    jm_kumo
  • 法语角色: ff_siwis

  • 意大利语角色: if_sara, im_nicola

  • 印地语角色: hf_alpha, hf_beta, hm_omega, hm_psi

  • 西班牙语角色: ef_dora, em_alex, em_santa

  • 葡萄牙语角色: pf_dora, pm_alex, pm_santa

  网络代理 (VPN) 说明

源码部署方式需要从 Hugging Face 下载模型文件,如果你的网络无法直接访问 Hugging Face,你需要配置全局代理或系统代理。你也可以提前下载好模型文件,并将其解压到 app.py 所在的目录下。

模型下载地址 https://github.com/jianchang512/kokoro-uiapi/releases/download/0.1/moxing--jieya--dao--app.py--mulu.7z