Spaces:

Pedro13543
/

Kokoro_TTS_voice_mixing_experiment

Running

App Files Files Community

Pedro13543 commited on 2 days ago

Commit

90c6d0f

1 Parent(s): 121cd9c

download models fix

Browse files

Files changed (3) hide show

kokoro-v0_19-half.pth +3 -0
kokoro.py +20 -11
voices/example_mixed_af_bm_lewis_ratio_0.27.pt +3 -0

kokoro-v0_19-half.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70cbf37f84610967f2ca72dadb95456fdd8b6c72cdd6dc7372c50f525889ff0c
+size 163731194

kokoro.py CHANGED Viewed

@@ -131,7 +131,7 @@ def length_to_mask(lengths):
     return mask
 @torch.no_grad()
-def forward(model, tokens, ref_s, speed):
     device = ref_s.device
     tokens = torch.LongTensor([[0, *tokens, 0]]).to(device)
     input_lengths = torch.LongTensor([tokens.shape[-1]]).to(device)
@@ -169,35 +169,44 @@ def generate(model, text, voicepack, lang='a', speed=1, ps=None):
     return out, ps
 @torch.no_grad()
 def forward(model, tokens, ref_s, speed):
     device = ref_s.device
     tokens = torch.LongTensor([[0, *tokens, 0]]).to(device)
-    input_lengths = torch.LongTensor([tokens.shape[-1]]).to(device)
     text_mask = length_to_mask(input_lengths).to(device)
     bert_dur = model.bert(tokens, attention_mask=(~text_mask).int())
     d_en = model.bert_encoder(bert_dur).transpose(-1, -2)
     s = ref_s[:, 128:]
     d = model.predictor.text_encoder(d_en, s, input_lengths, text_mask)
     x, _ = model.predictor.lstm(d)
     duration = model.predictor.duration_proj(x)
     duration = torch.sigmoid(duration).sum(axis=-1) / speed
     pred_dur = torch.round(duration).clamp(min=1).long()
     pred_aln_trg = torch.zeros(input_lengths, pred_dur.sum().item())
     c_frame = 0
     for i in range(pred_aln_trg.size(0)):
         pred_aln_trg[i, c_frame:c_frame + pred_dur[0, i].item()] = 1
         c_frame += pred_dur[0, i].item()
     en = d.transpose(-1, -2) @ pred_aln_trg.unsqueeze(0).to(device)
     F0_pred, N_pred = model.predictor.F0Ntrain(en, s)
     t_en = model.text_encoder(tokens, input_lengths, text_mask)
     asr = t_en @ pred_aln_trg.unsqueeze(0).to(device)
-    return model.decoder(asr, F0_pred, N_pred, ref_s[:, :128]).squeeze().cpu().numpy()

     return mask
 @torch.no_grad()
+def forward_2(model, tokens, ref_s, speed):
     device = ref_s.device
     tokens = torch.LongTensor([[0, *tokens, 0]]).to(device)
     input_lengths = torch.LongTensor([tokens.shape[-1]]).to(device)
     return out, ps
 @torch.no_grad()
 def forward(model, tokens, ref_s, speed):
+    # Device management
     device = ref_s.device
+    # Tokenization
     tokens = torch.LongTensor([[0, *tokens, 0]]).to(device)
+    input_lengths = torch.LongTensor([tokens.shape[-1]])
+    # Text Mask
     text_mask = length_to_mask(input_lengths).to(device)
+    # Predictor
     bert_dur = model.bert(tokens, attention_mask=(~text_mask).int())
     d_en = model.bert_encoder(bert_dur).transpose(-1, -2)
     s = ref_s[:, 128:]
     d = model.predictor.text_encoder(d_en, s, input_lengths, text_mask)
+    # Fusion layers
     x, _ = model.predictor.lstm(d)
     duration = model.predictor.duration_proj(x)
     duration = torch.sigmoid(duration).sum(axis=-1) / speed
+    # Prediction
     pred_dur = torch.round(duration).clamp(min=1).long()
     pred_aln_trg = torch.zeros(input_lengths, pred_dur.sum().item())
     c_frame = 0
     for i in range(pred_aln_trg.size(0)):
         pred_aln_trg[i, c_frame:c_frame + pred_dur[0, i].item()] = 1
         c_frame += pred_dur[0, i].item()
+    # Decoder
     en = d.transpose(-1, -2) @ pred_aln_trg.unsqueeze(0).to(device)
     F0_pred, N_pred = model.predictor.F0Ntrain(en, s)
+    # Output
     t_en = model.text_encoder(tokens, input_lengths, text_mask)
     asr = t_en @ pred_aln_trg.unsqueeze(0).to(device)
+    return model.decoder(asr, F0_pred, N_pred, ref_s[:, :128]).squeeze().cpu().numpy()

voices/example_mixed_af_bm_lewis_ratio_0.27.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e32f1a1d5905088625a0b486b1b363596b372347f5256c8e04704f648d92adc
+size 263085