Spaces:

ZennyKenny
/

AudioTranscribe

Running on CPU Upgrade

App Files Files Community

ZennyKenny commited on 1 day ago

Commit

8057378

verified ·

1 Parent(s): 8bf702e

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -4

app.py CHANGED Viewed

@@ -1,9 +1,29 @@
 import gradio as gr
 import torch
 from transformers import pipeline
-import spaces  # Ensure spaces library is imported if using GPU decorator
-@spaces.GPU(duration=3)  # Decorator to allocate GPU for the app
 def main():
     # Force GPU if available, fallback to CPU
     device = 0 if torch.cuda.is_available() else -1
@@ -19,8 +39,8 @@ def main():
     # Function to process audio
     def process_audio(audio_file):
         try:
-            # Transcribe the audio
-            transcription = transcriber(audio_file)["text"]
             # Summarize the transcription
             summary = summarizer(transcription, max_length=50, min_length=10, do_sample=False)[0]["summary_text"]
             return transcription, summary

 import gradio as gr
 import torch
 from transformers import pipeline
+import librosa  # For audio processing
+def split_audio(audio_path, chunk_duration=30):
+    """Split audio into chunks of chunk_duration seconds."""
+    audio, sr = librosa.load(audio_path, sr=None)
+    chunks = []
+    for start in range(0, len(audio), int(chunk_duration * sr)):
+        end = start + int(chunk_duration * sr)
+        chunks.append(audio[start:end])
+    return chunks, sr
+def transcribe_long_audio(audio_path, transcriber, chunk_duration=30):
+    """Transcribe long audio by splitting into smaller chunks."""
+    chunks, sr = split_audio(audio_path, chunk_duration)
+    transcriptions = []
+    for chunk in chunks:
+        temp_path = "temp_chunk.wav"
+        librosa.output.write_wav(temp_path, chunk, sr)
+        transcription = transcriber(temp_path)["text"]
+        transcriptions.append(transcription)
+    return " ".join(transcriptions)
+@spaces.GPU(duration=3)
 def main():
     # Force GPU if available, fallback to CPU
     device = 0 if torch.cuda.is_available() else -1
     # Function to process audio
     def process_audio(audio_file):
         try:
+            # Transcribe the audio (long-form support)
+            transcription = transcribe_long_audio(audio_file, transcriber, chunk_duration=30)
             # Summarize the transcription
             summary = summarizer(transcription, max_length=50, min_length=10, do_sample=False)[0]["summary_text"]
             return transcription, summary