Spaces:

ZennyKenny
/

AudioTranscribe

Running on CPU Upgrade

App Files Files Community

ZennyKenny commited on 2 days ago

Commit

e22e17f

verified ·

1 Parent(s): e88a1f3

fix upload error

Browse files

Files changed (1) hide show

app.py +6 -14

app.py CHANGED Viewed

@@ -16,51 +16,45 @@ def split_audio(audio_data, sr, chunk_duration=30):
 def transcribe_long_audio(audio_input, transcriber, chunk_duration=30):
     """Transcribe long audio by splitting into smaller chunks."""
-    # Check if audio_input is a file path or raw data
-    if isinstance(audio_input, str):
         audio_data, sr = librosa.load(audio_input, sr=None)
-    else:  # Raw audio data (e.g., from recording)
         audio_data, sr = audio_input
     chunks = split_audio(audio_data, sr, chunk_duration)
     transcriptions = []
     for i, chunk in enumerate(chunks):
         temp_path = f"temp_chunk_{i}.wav"
-        sf.write(temp_path, chunk, sr)  # Save the chunk as a WAV file
         transcription = transcriber(temp_path)["text"]
         transcriptions.append(transcription)
-        os.remove(temp_path)  # Clean up temporary files
     return " ".join(transcriptions)
 @spaces.GPU(duration=3)
 def main():
-    # Force GPU if available, fallback to CPU
     device = 0 if torch.cuda.is_available() else -1
     try:
-        # Load models with explicit device
         transcriber = pipeline("automatic-speech-recognition", model="openai/whisper-base", device=device)
         summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
     except Exception as e:
         print(f"Error loading models: {e}")
         raise
-    # Function to process audio
     def process_audio(audio_input):
         try:
-            # Transcribe the audio (long-form support)
             transcription = transcribe_long_audio(audio_input, transcriber, chunk_duration=30)
-            # Summarize the transcription
             summary = summarizer(transcription, max_length=50, min_length=10, do_sample=False)[0]["summary_text"]
             return transcription, summary
         except Exception as e:
             return f"Error processing audio: {e}", ""
-    # Gradio Interface with Horizontal Layout
     with gr.Blocks() as interface:
         with gr.Row():
             with gr.Column():
-                audio_input = gr.Audio(source="microphone", type="numpy", label="Record or Upload Audio")
                 process_button = gr.Button("Process Audio")
             with gr.Column():
                 transcription_output = gr.Textbox(label="Full Transcription", lines=10)
@@ -72,9 +66,7 @@ def main():
             outputs=[transcription_output, summary_output]
         )
-    # Launch the interface with optional public sharing
     interface.launch(share=True)
-# Run the main function
 if __name__ == "__main__":
     main()

 def transcribe_long_audio(audio_input, transcriber, chunk_duration=30):
     """Transcribe long audio by splitting into smaller chunks."""
+    if isinstance(audio_input, str):  # File path
         audio_data, sr = librosa.load(audio_input, sr=None)
+    else:  # Raw audio data (numpy array)
         audio_data, sr = audio_input
     chunks = split_audio(audio_data, sr, chunk_duration)
     transcriptions = []
     for i, chunk in enumerate(chunks):
         temp_path = f"temp_chunk_{i}.wav"
+        sf.write(temp_path, chunk, sr)  # Save chunk as WAV
         transcription = transcriber(temp_path)["text"]
         transcriptions.append(transcription)
+        os.remove(temp_path)  # Cleanup temp files
     return " ".join(transcriptions)
 @spaces.GPU(duration=3)
 def main():
     device = 0 if torch.cuda.is_available() else -1
     try:
         transcriber = pipeline("automatic-speech-recognition", model="openai/whisper-base", device=device)
         summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
     except Exception as e:
         print(f"Error loading models: {e}")
         raise
     def process_audio(audio_input):
         try:
             transcription = transcribe_long_audio(audio_input, transcriber, chunk_duration=30)
             summary = summarizer(transcription, max_length=50, min_length=10, do_sample=False)[0]["summary_text"]
             return transcription, summary
         except Exception as e:
             return f"Error processing audio: {e}", ""
     with gr.Blocks() as interface:
         with gr.Row():
             with gr.Column():
+                # No 'source' argument; recording enabled by default
+                audio_input = gr.Audio(type="numpy", label="Record or Upload Audio")
                 process_button = gr.Button("Process Audio")
             with gr.Column():
                 transcription_output = gr.Textbox(label="Full Transcription", lines=10)
             outputs=[transcription_output, summary_output]
         )
     interface.launch(share=True)
 if __name__ == "__main__":
     main()