Spaces:

ZennyKenny
/

AudioTranscribe

Running on CPU Upgrade

App Files Files Community

ZennyKenny commited on 1 day ago

Commit

190e895

verified ·

1 Parent(s): e22e17f

close mic so browser doesn't crash

Browse files

Files changed (1) hide show

app.py +30 -14

app.py CHANGED Viewed

@@ -16,20 +16,25 @@ def split_audio(audio_data, sr, chunk_duration=30):
 def transcribe_long_audio(audio_input, transcriber, chunk_duration=30):
     """Transcribe long audio by splitting into smaller chunks."""
-    if isinstance(audio_input, str):  # File path
-        audio_data, sr = librosa.load(audio_input, sr=None)
-    else:  # Raw audio data (numpy array)
-        audio_data, sr = audio_input
-    chunks = split_audio(audio_data, sr, chunk_duration)
-    transcriptions = []
-    for i, chunk in enumerate(chunks):
-        temp_path = f"temp_chunk_{i}.wav"
-        sf.write(temp_path, chunk, sr)  # Save chunk as WAV
-        transcription = transcriber(temp_path)["text"]
-        transcriptions.append(transcription)
-        os.remove(temp_path)  # Cleanup temp files
-    return " ".join(transcriptions)
 @spaces.GPU(duration=3)
 def main():
@@ -53,19 +58,30 @@ def main():
     with gr.Blocks() as interface:
         with gr.Row():
             with gr.Column():
-                # No 'source' argument; recording enabled by default
                 audio_input = gr.Audio(type="numpy", label="Record or Upload Audio")
                 process_button = gr.Button("Process Audio")
             with gr.Column():
                 transcription_output = gr.Textbox(label="Full Transcription", lines=10)
                 summary_output = gr.Textbox(label="Summary", lines=5)
         process_button.click(
             process_audio,
             inputs=[audio_input],
             outputs=[transcription_output, summary_output]
         )
     interface.launch(share=True)
 if __name__ == "__main__":

 def transcribe_long_audio(audio_input, transcriber, chunk_duration=30):
     """Transcribe long audio by splitting into smaller chunks."""
+    try:
+        if isinstance(audio_input, tuple):  # Recorded audio
+            audio_data, sr = audio_input
+        elif isinstance(audio_input, str):  # Uploaded file path
+            audio_data, sr = librosa.load(audio_input, sr=None)
+        else:
+            raise ValueError("Unsupported audio input format.")
+        chunks = split_audio(audio_data, sr, chunk_duration)
+        transcriptions = []
+        for i, chunk in enumerate(chunks):
+            temp_path = f"temp_chunk_{i}.wav"
+            sf.write(temp_path, chunk, sr)  # Save chunk as WAV
+            transcription = transcriber(temp_path)["text"]
+            transcriptions.append(transcription)
+            os.remove(temp_path)  # Cleanup temp files
+        return " ".join(transcriptions)
+    except Exception as e:
+        return f"Error processing audio: {e}"
 @spaces.GPU(duration=3)
 def main():
     with gr.Blocks() as interface:
         with gr.Row():
             with gr.Column():
+                # Enable recording or file upload
                 audio_input = gr.Audio(type="numpy", label="Record or Upload Audio")
                 process_button = gr.Button("Process Audio")
+                stop_button = gr.Button("Stop Recording")  # Add Stop Button
             with gr.Column():
                 transcription_output = gr.Textbox(label="Full Transcription", lines=10)
                 summary_output = gr.Textbox(label="Summary", lines=5)
+        def stop_microphone():
+            """Dummy function to simulate stopping the microphone."""
+            return "Recording stopped."
         process_button.click(
             process_audio,
             inputs=[audio_input],
             outputs=[transcription_output, summary_output]
         )
+        stop_button.click(
+            stop_microphone,
+            inputs=[],
+            outputs=[],
+        )
     interface.launch(share=True)
 if __name__ == "__main__":