Spaces:

ZennyKenny
/

AudioTranscribe

Running on CPU Upgrade

App Files Files Community

ZennyKenny commited on 1 day ago

Commit

82b4010

verified ·

1 Parent(s): 781e9f1

persistent storage support

Browse files

Files changed (1) hide show

app.py +50 -35

app.py CHANGED Viewed

@@ -3,8 +3,13 @@ import torch
 from transformers import pipeline
 import librosa
 import soundfile as sf
-import spaces
 import os
 def split_audio(audio_data, sr, chunk_duration=30):
     """Split audio into chunks of chunk_duration seconds."""
@@ -14,24 +19,11 @@ def split_audio(audio_data, sr, chunk_duration=30):
         chunks.append(audio_data[start:end])
     return chunks
-def transcribe_long_audio(audio_input, transcriber, chunk_duration=30):
     """Transcribe long audio by splitting into smaller chunks."""
     try:
-        # Debugging input type and format
-        print(f"Audio input type: {type(audio_input)}")
-        if isinstance(audio_input, tuple):  # Recorded audio
-            print("Processing recorded audio...")
-            audio_data, sr = audio_input  # Unpack raw audio data and sample rate
-            temp_path = "recorded_audio.wav"
-            sf.write(temp_path, audio_data, sr)  # Save recorded audio as a temporary file
-        elif isinstance(audio_input, str):  # Uploaded file path
-            print("Processing uploaded audio...")
-            temp_path = audio_input  # Use the file path directly
-        else:
-            raise ValueError("Unsupported audio input format.")
-        # Process the audio file (recorded or uploaded)
-        audio_data, sr = librosa.load(temp_path, sr=None)
         chunks = split_audio(audio_data, sr, chunk_duration)
         transcriptions = []
         for i, chunk in enumerate(chunks):
@@ -40,13 +32,30 @@ def transcribe_long_audio(audio_input, transcriber, chunk_duration=30):
             transcription = transcriber(chunk_path)["text"]
             transcriptions.append(transcription)
             os.remove(chunk_path)  # Cleanup temp files
-        if temp_path == "recorded_audio.wav":
-            os.remove(temp_path)  # Remove the temporary recorded audio file
         return " ".join(transcriptions)
     except Exception as e:
         print(f"Error in transcribe_long_audio: {e}")
         return f"Error processing audio: {e}"
 @spaces.GPU(duration=3)
 def main():
     device = 0 if torch.cuda.is_available() else -1
@@ -60,17 +69,29 @@ def main():
     def process_audio(audio_input):
         try:
-            transcription = transcribe_long_audio(audio_input, transcriber, chunk_duration=30)
             summary = summarizer(transcription, max_length=50, min_length=10, do_sample=False)[0]["summary_text"]
-            return transcription, summary
         except Exception as e:
             print(f"Error in process_audio: {e}")
-            return f"Error processing audio: {e}", ""
-    def stop_microphone():
-        """Simulate stopping the microphone."""
-        print("Microphone stopped.")  # Debugging for user feedback
-        return "Microphone stopped. Recording session has ended."
     with gr.Blocks() as interface:
         with gr.Row():
@@ -78,21 +99,15 @@ def main():
                 # Enable recording or file upload
                 audio_input = gr.Audio(type="numpy", label="Record or Upload Audio")
                 process_button = gr.Button("Process Audio")
-                stop_button = gr.Button("Stop Recording")  # Add Stop Button
             with gr.Column():
                 transcription_output = gr.Textbox(label="Full Transcription", lines=10)
                 summary_output = gr.Textbox(label="Summary", lines=5)
         process_button.click(
             process_audio,
             inputs=[audio_input],
-            outputs=[transcription_output, summary_output]
-        )
-        stop_button.click(
-            stop_microphone,
-            inputs=[],
-            outputs=[]
         )
     interface.launch(share=True)

 from transformers import pipeline
 import librosa
 import soundfile as sf
 import os
+import uuid
+# Directory to save recorded audio files
+OUTPUT_DIR = os.getenv("HF_HOME", ".")  # Use dynamic path or default to current directory
+OUTPUT_DIR = os.path.join(OUTPUT_DIR, "recorded_audio_files")
+os.makedirs(OUTPUT_DIR, exist_ok=True)
 def split_audio(audio_data, sr, chunk_duration=30):
     """Split audio into chunks of chunk_duration seconds."""
         chunks.append(audio_data[start:end])
     return chunks
+def transcribe_long_audio(audio_path, transcriber, chunk_duration=30):
     """Transcribe long audio by splitting into smaller chunks."""
     try:
+        # Load the audio file
+        audio_data, sr = librosa.load(audio_path, sr=None)
         chunks = split_audio(audio_data, sr, chunk_duration)
         transcriptions = []
         for i, chunk in enumerate(chunks):
             transcription = transcriber(chunk_path)["text"]
             transcriptions.append(transcription)
             os.remove(chunk_path)  # Cleanup temp files
         return " ".join(transcriptions)
     except Exception as e:
         print(f"Error in transcribe_long_audio: {e}")
         return f"Error processing audio: {e}"
+def cleanup_output_dir(max_storage_mb=500):
+    """Remove old files if total directory size exceeds max_storage_mb."""
+    try:
+        total_size = sum(
+            os.path.getsize(os.path.join(OUTPUT_DIR, f)) for f in os.listdir(OUTPUT_DIR)
+        )
+        if total_size > max_storage_mb * 1024 * 1024:
+            files = sorted(
+                (os.path.join(OUTPUT_DIR, f) for f in os.listdir(OUTPUT_DIR)),
+                key=os.path.getctime,
+            )
+            for file in files:
+                os.remove(file)
+                total_size -= os.path.getsize(file)
+                if total_size <= max_storage_mb * 1024 * 1024:
+                    break
+    except Exception as e:
+        print(f"Error during cleanup: {e}")
 @spaces.GPU(duration=3)
 def main():
     device = 0 if torch.cuda.is_available() else -1
     def process_audio(audio_input):
         try:
+            if isinstance(audio_input, tuple):  # Recorded audio
+                print("Handling recorded audio.")
+                audio_data, sr = audio_input
+                filename = f"recorded_audio_{uuid.uuid4().hex}.wav"
+                temp_path = os.path.join(OUTPUT_DIR, filename)
+                sf.write(temp_path, audio_data, sr)
+            elif isinstance(audio_input, str):  # Uploaded file path
+                print("Handling uploaded audio.")
+                temp_path = audio_input
+            else:
+                raise ValueError("Unsupported audio input format.")
+            # Transcribe the saved audio file
+            transcription = transcribe_long_audio(temp_path, transcriber, chunk_duration=30)
             summary = summarizer(transcription, max_length=50, min_length=10, do_sample=False)[0]["summary_text"]
+            # Cleanup old files
+            cleanup_output_dir()
+            return transcription, summary, temp_path
         except Exception as e:
             print(f"Error in process_audio: {e}")
+            return f"Error processing audio: {e}", "", ""
     with gr.Blocks() as interface:
         with gr.Row():
                 # Enable recording or file upload
                 audio_input = gr.Audio(type="numpy", label="Record or Upload Audio")
                 process_button = gr.Button("Process Audio")
             with gr.Column():
                 transcription_output = gr.Textbox(label="Full Transcription", lines=10)
                 summary_output = gr.Textbox(label="Summary", lines=5)
+                audio_output = gr.Audio(label="Playback Processed Audio")
         process_button.click(
             process_audio,
             inputs=[audio_input],
+            outputs=[transcription_output, summary_output, audio_output]
         )
     interface.launch(share=True)