Spaces:

ZennyKenny
/

AudioTranscribe

Running on CPU Upgrade

File size: 1,881 Bytes

bd97be7
9fe4dba
b40af2a
525ee37
bd97be7
cf5586f
525ee37
 
 
5f36451
d88ec40
525ee37
 
 
d88ec40
525ee37
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b40af2a
525ee37
 
 
 
 
b40af2a
525ee37
 
6befe57
525ee37

import gradio as gr
import torch
from transformers import pipeline
import spaces  # Ensure spaces library is imported if using GPU decorator

@spaces.GPU(duration=3)  # Decorator to allocate GPU for the app
def main():
    # Force GPU if available, fallback to CPU
    device = 0 if torch.cuda.is_available() else -1

    try:
        # Load models with explicit device
        transcriber = pipeline("automatic-speech-recognition", model="openai/whisper-base", device=device)
        summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
    except Exception as e:
        print(f"Error loading models: {e}")
        raise

    # Function to process audio
    def process_audio(audio_file):
        try:
            # Transcribe the audio
            transcription = transcriber(audio_file)["text"]
            # Summarize the transcription
            summary = summarizer(transcription, max_length=50, min_length=10, do_sample=False)[0]["summary_text"]
            return transcription, summary
        except Exception as e:
            return f"Error processing audio: {e}", ""

    # Gradio Interface with Horizontal Layout
    with gr.Blocks() as interface:
        with gr.Row():
            with gr.Column():
                audio_input = gr.Audio(type="filepath", label="Upload Audio File")
                process_button = gr.Button("Process Audio")
            with gr.Column():
                transcription_output = gr.Textbox(label="Full Transcription", lines=10)
                summary_output = gr.Textbox(label="Summary", lines=5)

        process_button.click(
            process_audio,
            inputs=[audio_input],
            outputs=[transcription_output, summary_output]
        )

    # Launch the interface with optional public sharing
    interface.launch(share=True)

# Run the main function
if __name__ == "__main__":
    main()