Git Product home page Git Product logo

voice-changer's Introduction

VC Client

English

What's New!

  • v.1.5.2.1

    • 各サポート VC を選択するランチャーを実装しました。これに伴い起動バッチファイルは、start_http.batstart_https.batの二つになります。

VC Client とは

  1. 各種音声変換 AI(VC, Voice Conversion)を用いてリアルタイム音声変換を行うためのクライアントソフトウェアです。サポートしている音声変換 AI は次のものになります。
  1. 本ソフトウェアは、ネットワークを介した利用も可能であり、ゲームなどの高負荷なアプリケーションと同時に使用する場合などに音声変換処理の負荷を外部にオフロードすることができます。

image

  1. 複数のプラットフォーに対応しています。
  • Windows, Mac(M1), Linux, Google Colab (MMVC のみ)

使用方法

大きく 3 つの方法でご利用できます。難易度順に次の通りです。

  • Google Colaboratory での利用(MMVC のみ)
  • 事前ビルド済みの Binary での利用
  • Docker や Anaconda など環境構築を行った上での利用

本ソフトウェアや MMVC になじみの薄い方は上から徐々に慣れていくとよいと思います。

(1) Google Colaboratory での利用(MMVC のみ)

Google が提供している機械学習プラットフォーム Colaboratory 上で実行できます。 MMVC のモデルをトレーニングが完了している場合、既に Colaboratory を利用していると思いますので、事前準備は必要ありません。ただし、ネットワーク環境や Colaboratory の状況によってボイスチェンジャのタイムラグが大きくなる傾向があります。

解説動画

(2) 事前ビルド済みの Binary での利用

実行形式のバイナリをダウンロードして実行することができます。 Windows 版と Mac 版を提供しています。

  • Windows 版は、ダウンロードした zip ファイルを解凍して、start_http.batを実行してください。

  • Mac 版はダウンロードファイルを解凍したのちに、startHttp.commandを実行してください。開発元を検証できない旨が示される場合は、再度コントロールキーを押してクリックして実行してください(or 右クリックから実行してください)。(詳細下記 *1)

  • リモートから接続する場合は、.batファイル(win)、.commandファイル(mac)の http が https に置き換わっているものを使用してください。

  • Windows 環境で Nvidia の GPU をお持ちの方は多くの場合は ONNX(cpu,cuda), PyTorch(cpu,cuda)版で動きます。

  • Windows 環境で Nvidia の GPU をお持ちでない方は多くの場合は ONNX(cpu,DirectML), PyTorch(cpu) 版で動きます。

  • つくよみちゃん、あみたろ、黄琴まひろ、黄琴海月、の動作には content vec のモデルが必要となります。こちらのリポジトリから、ContentVec_legacy 500 のモデルをダウンロードして、実行するstartHttp.commandstart_http.batと同じフォルダに配置してください。

  • so-vits-svc 4.0/so-vits-svc 4.0v2、RVC(Retrieval-based-Voice-Conversion)の動作には hubert のモデルが必要になります。このリポジトリからhubert_base.ptをダウンロードして、バッチファイルがあるフォルダに格納してください。

Version OS フレームワーク link サポート VC サイズ
v.1.5.2.2 mac ONNX(cpu), PyTorch(cpu) 通常 MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, so-vits-svc 4.0v2, RVC 635MB
win ONNX(cpu,cuda), PyTorch(cpu,cuda) 通常 MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, so-vits-svc 4.0v2, RVC 2795MB

hugging_faceでも公開(experimental)

  • 各キャラクター専用(近々 RVC 版として提供予定)
Version OS フレームワーク link サポート VC サイズ
v.1.5.1.14 mac - 黄琴まひろ - 872MB
mac - あみたろ - 872MB
mac - 黄琴海月 - 873MB
win - つくよみちゃん - 823MB
win - 黄琴まひろ - 821MB
win - 黄琴海月 - 823MB
win - あみたろ - 821MB

*1 つくよみちゃんはフリー素材キャラクター「つくよみちゃん」が無料公開している音声データを使用しています。(利用規約など、詳細は文末)

*2 解凍や起動が遅い場合、ウィルス対策ソフトのチェックが走っている可能性があります。ファイルやフォルダを対象外にして実行してみてください。(自己責任です)

*3 本ソフトウェアは開発元の署名しておりません。下記のように警告が出ますが、コントロールキーを押しながらアイコンをクリックすると実行できるようになります。これは Apple のセキュリティポリシーによるものです。実行は自己責任となります。

image

m1_mac.mp4

(3) Docker や Anaconda など環境構築を行った上での利用

本リポジトリをクローンして利用します。Windows では WSL2 の環境構築が必須になります。また、WSL2 上で Docker もしくは Anaconda などの仮想環境の構築が必要となります。Mac では Anaconda などの Python の仮想環境の構築が必要となります。事前準備が必要となりますが、多くの環境においてこの方法が一番高速で動きます。 GPU が無くてもそこそこ新しい CPU であれば十分動く可能性があります (下記のリアルタイム性の節を参照)

WSL2 と Docker のインストールの解説動画

WSL2 と Anaconda のインストールの解説動画

リアルタイム性

GPU を使用するとほとんどタイムラグなく変換可能です。

https://twitter.com/DannadoriYellow/status/1613483372579545088?s=20&t=7CLD79h1F3dfKiTb7M8RUQ

CPU でも最近のであればそれなりの速度で変換可能。

https://twitter.com/DannadoriYellow/status/1613553862773997569?s=20&t=7CLD79h1F3dfKiTb7M8RUQ

古い CPU( i7-4770)だと、1000msec くらいかかってしまう。

Acknowledgments

  本ソフトウェアの音声合成には、フリー素材キャラクター「つくよみちゃん」が無料公開している音声データを使用しています。
  ■つくよみちゃんコーパス(CV.夢前黎)
  https://tyc.rei-yumesaki.net/material/corpus/
  © Rei Yumesaki

利用規約

  • リアルタイムボイスチェンジャーつくよみちゃんについては、つくよみちゃんコーパスの利用規約に準じ、次の目的で変換後の音声を使用することを禁止します。

■人を批判・攻撃すること。(「批判・攻撃」の定義は、つくよみちゃんキャラクターライセンスに準じます)

■特定の政治的立場・宗教・**への賛同または反対を呼びかけること。

■刺激の強い表現をゾーニングなしで公開すること。

■他者に対して二次利用(素材としての利用)を許可する形で公開すること。
※鑑賞用の作品として配布・販売していただくことは問題ございません。
  • リアルタイムボイスチェンジャーあみたろについては、あみたろの声素材工房様の次の利用規約に準じます。詳細はこちらです。
あみたろの声素材やコーパス読み上げ音声を使って音声モデルを作ったり、ボイスチェンジャーや声質変換などを使用して、自分の声をあみたろの声に変換して使うのもOKです。

ただしその場合は絶対に、あみたろ(もしくは小春音アミ)の声に声質変換していることを明記し、あみたろ(および小春音アミ)が話しているわけではないことが誰でもわかるようにしてください。
また、あみたろの声で話す内容は声素材の利用規約の範囲内のみとし、センシティブな発言などはしないでください。
  • リアルタイムボイスチェンジャー黄琴まひろについては、れぷりかどーるの利用規約に準じます。詳細はこちらです。

免責事項

本ソフトウェアの使用または使用不能により生じたいかなる直接損害・間接損害・波及的損害・結果的損害 または特別損害についても、一切責任を負いません。

(1) レコーダー(トレーニング用音声録音アプリ)

MMVC トレーニング用の音声を簡単に録音できるアプリです。 Github Pages 上で実行できるため、ブラウザのみあれば様々なプラットフォームからご利用可能です。 録音したデータは、ブラウザ上に保存されます。外部に漏れることはありません。

録音アプリ on Github Pages

解説動画

過去バージョン

Version OS フレームワーク link サポート VC サイズ
v.1.5.2.1 mac ONNX(cpu), PyTorch(cpu) 通常 MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, so-vits-svc 4.0v2, RVC 635MB
win ONNX(cpu,cuda), PyTorch(cpu,cuda) 通常 MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, so-vits-svc 4.0v2, RVC 2794MB
Version OS フレームワーク link サポート VC サイズ
----------- ------------------------------------- ------------------------------------- ------------------------------------------------------------------------------------------ ------------------------------------------------------------------- ------
v.1.5.1.15b win ONNX(cpu,cuda), PyTorch(cpu) 通常 MMVC v.1.5.x, MMVC v.1.3.x, RVC 773MB
win ONNX(cpu,cuda), PyTorch(cpu,cuda) 通常 MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, so-vits-svc 4.0v2, RVC 2794MB
win ONNX(cpu,DirectML), PyTorch(cpu) 通常 MMVC v.1.5.x, MMVC v.1.3.x, RVC 488MB
win ONNX(cpu,DirectML), PyTorch(cpu,cuda) 通常 MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, so-vits-svc 4.0v2, RVC 2665MB
mac ONNX(cpu), PyTorch(cpu) normal MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, so-vits-svc 4.0v2, RVC 615MB
Version OS フレームワーク link サポート VC サイズ
v.1.5.1.15a win ONNX(cpu,cuda), PyTorch(cpu,cuda) 通常 MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, so-vits-svc 4.0v2, RVC 2641MB

voice-changer's People

Contributors

w-okada avatar frodo821 avatar srgr0 avatar dannadori avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.