Spaces:

ZennyKenny
/

AudioTranscribe

Running on CPU Upgrade

App Files Files Community

ZennyKenny commited on 1 day ago

Commit

875dc71

verified ·

1 Parent(s): 9036a70

handle audio input

Browse files

Files changed (1) hide show

app.py +11 -17

app.py CHANGED Viewed

@@ -19,20 +19,25 @@ def transcribe_long_audio(audio_input, transcriber, chunk_duration=30):
     try:
         if isinstance(audio_input, tuple):  # Recorded audio
             audio_data, sr = audio_input  # Unpack raw audio data and sample rate
         elif isinstance(audio_input, str):  # Uploaded file path
-            audio_data, sr = librosa.load(audio_input, sr=None)
         else:
             raise ValueError("Unsupported audio input format.")
-        # Split the audio into chunks
         chunks = split_audio(audio_data, sr, chunk_duration)
         transcriptions = []
         for i, chunk in enumerate(chunks):
-            temp_path = f"temp_chunk_{i}.wav"
-            sf.write(temp_path, chunk, sr)  # Save chunk as WAV
-            transcription = transcriber(temp_path)["text"]
             transcriptions.append(transcription)
-            os.remove(temp_path)  # Cleanup temp files
         return " ".join(transcriptions)
     except Exception as e:
         return f"Error processing audio: {e}"
@@ -62,27 +67,16 @@ def main():
                 # Enable recording or file upload
                 audio_input = gr.Audio(type="numpy", label="Record or Upload Audio")
                 process_button = gr.Button("Process Audio")
-                stop_button = gr.Button("Stop Recording")  # Add Stop Button
             with gr.Column():
                 transcription_output = gr.Textbox(label="Full Transcription", lines=10)
                 summary_output = gr.Textbox(label="Summary", lines=5)
-        def stop_microphone():
-            """Dummy function to simulate stopping the microphone."""
-            return "Recording stopped."
         process_button.click(
             process_audio,
             inputs=[audio_input],
             outputs=[transcription_output, summary_output]
         )
-        stop_button.click(
-            stop_microphone,
-            inputs=[],
-            outputs=[],
-        )
     interface.launch(share=True)
 if __name__ == "__main__":

     try:
         if isinstance(audio_input, tuple):  # Recorded audio
             audio_data, sr = audio_input  # Unpack raw audio data and sample rate
+            temp_path = "recorded_audio.wav"
+            sf.write(temp_path, audio_data, sr)  # Save recorded audio as a temporary file
         elif isinstance(audio_input, str):  # Uploaded file path
+            temp_path = audio_input  # Use the file path directly
         else:
             raise ValueError("Unsupported audio input format.")
+        # Process the audio file (recorded or uploaded)
+        audio_data, sr = librosa.load(temp_path, sr=None)
         chunks = split_audio(audio_data, sr, chunk_duration)
         transcriptions = []
         for i, chunk in enumerate(chunks):
+            chunk_path = f"temp_chunk_{i}.wav"
+            sf.write(chunk_path, chunk, sr)  # Save chunk as WAV
+            transcription = transcriber(chunk_path)["text"]
             transcriptions.append(transcription)
+            os.remove(chunk_path)  # Cleanup temp files
+        if temp_path == "recorded_audio.wav":
+            os.remove(temp_path)  # Remove the temporary recorded audio file
         return " ".join(transcriptions)
     except Exception as e:
         return f"Error processing audio: {e}"
                 # Enable recording or file upload
                 audio_input = gr.Audio(type="numpy", label="Record or Upload Audio")
                 process_button = gr.Button("Process Audio")
             with gr.Column():
                 transcription_output = gr.Textbox(label="Full Transcription", lines=10)
                 summary_output = gr.Textbox(label="Summary", lines=5)
         process_button.click(
             process_audio,
             inputs=[audio_input],
             outputs=[transcription_output, summary_output]
         )
     interface.launch(share=True)
 if __name__ == "__main__":