informatica:inteligencia_artificial:tts
This is an old revision of the document!
Español en Mac
git clone https://github.com/jpgallegoar/Spanish-F5.git python3.11 -m venv venv source venv/bin/activate python -m pip install torch torchvision torchaudio python -m pip install soundfile librosa gradio_client python -m pip install -e .
Esta parte es sobretodo por Mac y la memoria compartida:
En el fichero Spanish-F5/src/f5_tts/infer/utils_infer.py línea 342 substituimos:
audio, sr = torchaudio.load(ref_audio)
Por:
import soundfile as sf import torch data, sr = sf.read(ref_audio) audio = torch.FloatTensor(data).unsqueeze(0) if data.ndim == 1 else torch.FloatTensor(data).T
Ahora lo arrancamos y la primera vez tarda mucho porque se descarga el modelo:
./venv/bin/f5-tts_infer-gradio --port 7860 --host 127.0.0.1
Poner el ejecutable de ffmpeg en el path. Lo descargamos de https://evermeet.cx/ffmpeg/:
cp ffmpeg Spanish-F5/venv/bin/ffmpeg chmod +x Spanish-F5/venv/bin/ffmpeg
Para ver la api:
python -c "from gradio_client import Client; print(Client('http://127.0.0.1:7860/').view_api())"
informatica/inteligencia_artificial/tts.1782400102.txt.gz · Last modified: by jose
