Spaces:

ZennyKenny
/

AudioTranscribe

Running on CPU Upgrade

App Files Files Community

ZennyKenny commited on 1 day ago

Commit

e88a1f3

verified ·

1 Parent(s): 0a8f055

support for ad hoc recording

Browse files

Files changed (1) hide show

app.py +19 -12

app.py CHANGED Viewed

@@ -2,27 +2,34 @@ import gradio as gr
 import torch
 from transformers import pipeline
 import librosa
-import soundfile as sf
 import spaces
-def split_audio(audio_path, chunk_duration=30):
     """Split audio into chunks of chunk_duration seconds."""
-    audio, sr = librosa.load(audio_path, sr=None)
     chunks = []
-    for start in range(0, len(audio), int(chunk_duration * sr)):
         end = start + int(chunk_duration * sr)
-        chunks.append(audio[start:end])
-    return chunks, sr
-def transcribe_long_audio(audio_path, transcriber, chunk_duration=30):
     """Transcribe long audio by splitting into smaller chunks."""
-    chunks, sr = split_audio(audio_path, chunk_duration)
     transcriptions = []
     for i, chunk in enumerate(chunks):
         temp_path = f"temp_chunk_{i}.wav"
-        sf.write(temp_path, chunk, sr)  # Save the chunk using soundfile
         transcription = transcriber(temp_path)["text"]
         transcriptions.append(transcription)
     return " ".join(transcriptions)
 @spaces.GPU(duration=3)
@@ -39,10 +46,10 @@ def main():
         raise
     # Function to process audio
-    def process_audio(audio_file):
         try:
             # Transcribe the audio (long-form support)
-            transcription = transcribe_long_audio(audio_file, transcriber, chunk_duration=30)
             # Summarize the transcription
             summary = summarizer(transcription, max_length=50, min_length=10, do_sample=False)[0]["summary_text"]
             return transcription, summary
@@ -53,7 +60,7 @@ def main():
     with gr.Blocks() as interface:
         with gr.Row():
             with gr.Column():
-                audio_input = gr.Audio(type="filepath", label="Upload Audio File")
                 process_button = gr.Button("Process Audio")
             with gr.Column():
                 transcription_output = gr.Textbox(label="Full Transcription", lines=10)

 import torch
 from transformers import pipeline
 import librosa
+import soundfile as sf
 import spaces
+import os
+def split_audio(audio_data, sr, chunk_duration=30):
     """Split audio into chunks of chunk_duration seconds."""
     chunks = []
+    for start in range(0, len(audio_data), int(chunk_duration * sr)):
         end = start + int(chunk_duration * sr)
+        chunks.append(audio_data[start:end])
+    return chunks
+def transcribe_long_audio(audio_input, transcriber, chunk_duration=30):
     """Transcribe long audio by splitting into smaller chunks."""
+    # Check if audio_input is a file path or raw data
+    if isinstance(audio_input, str):
+        audio_data, sr = librosa.load(audio_input, sr=None)
+    else:  # Raw audio data (e.g., from recording)
+        audio_data, sr = audio_input
+    chunks = split_audio(audio_data, sr, chunk_duration)
     transcriptions = []
     for i, chunk in enumerate(chunks):
         temp_path = f"temp_chunk_{i}.wav"
+        sf.write(temp_path, chunk, sr)  # Save the chunk as a WAV file
         transcription = transcriber(temp_path)["text"]
         transcriptions.append(transcription)
+        os.remove(temp_path)  # Clean up temporary files
     return " ".join(transcriptions)
 @spaces.GPU(duration=3)
         raise
     # Function to process audio
+    def process_audio(audio_input):
         try:
             # Transcribe the audio (long-form support)
+            transcription = transcribe_long_audio(audio_input, transcriber, chunk_duration=30)
             # Summarize the transcription
             summary = summarizer(transcription, max_length=50, min_length=10, do_sample=False)[0]["summary_text"]
             return transcription, summary
     with gr.Blocks() as interface:
         with gr.Row():
             with gr.Column():
+                audio_input = gr.Audio(source="microphone", type="numpy", label="Record or Upload Audio")
                 process_button = gr.Button("Process Audio")
             with gr.Column():
                 transcription_output = gr.Textbox(label="Full Transcription", lines=10)