Docker部署MeloTTS高质量多语言文本转语音(TTS)

MeloTTS：由MyShell AI开发的一个高质量的多语言文本到语音（TTS）库。

支持英语、西班牙语、法语、中文、日语和韩语等多种语言。

速度非常快，支持中英混合的发音，能生成清晰、自然的语音输出。

即使在普通的在CPU上也能实现实时语音合成。

主要功能：

多语言支持：MeloTTS支持多种语言的文本到语音转换，包括英语（有美国、英国、印度、澳大利亚等多种口音）、西班牙语、法语、中文、日语和韩语。这使得它适用于全球多种语言环境的应用场景。
中英混合发音：特别对于中文，MeloTTS支持中英混合的发音，这是在多语言交流中非常实用的功能，能够处理包含英文单词的中文文本。
实时CPU推理：MeloTTS设计优化以确保即使在没有GPU加速的情况下，也能在CPU上实现实时语音合成，这提高了其在不同硬件环境下的可用性。
高质量语音输出：MeloTTS旨在生成清晰、自然的语音输出，力求在各种支持的语言中保持语音的自然度和清晰度。
易于安装和使用：提供了简单的安装指南和Python API，使得用户可以轻松地在Linux环境中安装MeloTTS，并通过几行代码实现文本到语音的转换。

Linux and macOS Install

The repo is developed and tested on Ubuntu 20.04 and Python 3.9.

git clone https://github.com/myshell-ai/MeloTTS.git
cd MeloTTS
pip install -e .
python -m unidic download

Docker Install

Build Docker

1
2
3

git clone https://github.com/myshell-ai/MeloTTS.git
cd MeloTTS
docker build -t melotts .

Run Docker

1	docker run -it -p 8888:8888 melotts

If your local machine has GPU, then you can choose to run:

1	docker run --gpus all -it -p 8888:8888 melotts

Then open http://localhost:8888 in your browser to use the app.

Python API

from melo.api import TTS

# Speed is adjustable
speed = 1.0
device = 'cpu' # or cuda:0

text = "我最近在学习machine learning，希望能够在未来的artificial intelligence领域有所建树。"
model = TTS(language='ZH', device=device)
speaker_ids = model.hps.data.spk2id

output_path = 'zh.wav'
model.tts_to_file(text, speaker_ids['ZH'], output_path, speed=speed)