Spaces:

Arslan17121
/

AudioBookChV2

Running

App Files Files Community

Arslan17121 commited on 8 days ago

Commit

9cccd1c

verified ·

1 Parent(s): cee9b4c

Create app.py

Browse files

Files changed (1) hide show

app.py +121 -0

app.py ADDED Viewed

	@@ -0,0 +1,121 @@

+import streamlit as st
+import pdfplumber
+import re
+from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
+from tortoise.api import TTS
+from sklearn.feature_extraction.text import CountVectorizer
+from nltk.sentiment import SentimentIntensityAnalyzer
+# Initialize necessary components
+tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-7B", trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B", trust_remote_code=True)
+qa_pipeline = pipeline("question-answering")
+tts = TTS()
+sia = SentimentIntensityAnalyzer()
+# Helper functions
+def extract_text_from_pdf(file):
+    with pdfplumber.open(file) as pdf:
+        text = ''.join([page.extract_text() for page in pdf.pages])
+    return text
+def clean_text(text):
+    text = re.sub(r'\s*Page \d+\s*', '', text)  # Remove page numbers
+    return text.strip()
+def chunk_text(text, max_tokens=1024):
+    words = text.split()
+    chunks, current_chunk, current_token_count = [], [], 0
+    for word in words:
+        token_count = len(tokenizer(word)['input_ids'])
+        if current_token_count + token_count > max_tokens:
+            chunks.append(" ".join(current_chunk))
+            current_chunk, current_token_count = [], 0
+        current_chunk.append(word)
+        current_token_count += token_count
+    if current_chunk:
+        chunks.append(" ".join(current_chunk))
+    return chunks
+def summarize_text_qwen(text, max_length=800):
+    input_text = f"summarize: {text}"
+    tokens = tokenizer(input_text, return_tensors="pt", truncation=True, max_length=1024)
+    summary_ids = model.generate(
+        tokens["input_ids"], max_length=max_length, min_length=200,
+        length_penalty=2.0, num_beams=4, early_stopping=True
+    )
+    return tokenizer.decode(summary_ids[0], skip_special_tokens=True)
+def summarize_large_document(text, max_length=800):
+    chunks = chunk_text(text)
+    summaries = [summarize_text_qwen(chunk, max_length=max_length) for chunk in chunks]
+    return " ".join(summaries)
+def answer_question_with_context(question, context, chunk_size=500):
+    chunks = chunk_text(context, max_tokens=chunk_size)
+    answers = []
+    for chunk in chunks:
+        try:
+            answers.append(qa_pipeline({'question': question, 'context': chunk})['answer'])
+        except:
+            continue
+    return " ".join(answers)
+def text_to_speech(text, voice="emotional_voice"):
+    return tts.generate(text, preset="standard", voice=voice)
+def extract_keywords(text, top_n=10):
+    vectorizer = CountVectorizer(stop_words="english")
+    word_counts = vectorizer.fit_transform([text])
+    keywords = sorted(
+        zip(vectorizer.get_feature_names_out(), word_counts.toarray()[0]),
+        key=lambda x: x[1], reverse=True
+    )[:top_n]
+    return [word for word, count in keywords]
+def analyze_sentiment(text):
+    return sia.polarity_scores(text)
+# Streamlit App Interface
+st.title("Enhanced PDF to Audiobook App")
+st.markdown("### Turn documents into interactive audiobooks with advanced features.")
+uploaded_file = st.file_uploader("Upload a PDF", type="pdf")
+if uploaded_file:
+    with st.spinner("Extracting and cleaning PDF content..."):
+        raw_text = extract_text_from_pdf(uploaded_file)
+        cleaned_text = clean_text(raw_text)
+    st.text_area("Extracted Text", cleaned_text[:5000], height=300, help="Displaying first 5000 characters.")
+    if st.button("Summarize Document"):
+        with st.spinner("Summarizing document..."):
+            summary = summarize_large_document(cleaned_text, max_length=800)
+        st.text_area("Summary", summary, height=300)
+        if st.button("Convert Summary to Audiobook"):
+            with st.spinner("Generating audio..."):
+                audio = text_to_speech(summary)
+            st.audio(audio, format="audio/wav", start_time=0)
+    st.markdown("### Ask Questions About the Document")
+    question = st.text_input("Your Question:")
+    if question:
+        with st.spinner("Answering your question..."):
+            answer = answer_question_with_context(question, cleaned_text)
+        st.write(f"**Answer:** {answer}")
+        if st.button("Convert Answer to Audio"):
+            with st.spinner("Generating answer audio..."):
+                answer_audio = text_to_speech(answer)
+            st.audio(answer_audio, format="audio/wav", start_time=0)
+    st.markdown("### Document Insights")
+    if st.checkbox("Extract Keywords"):
+        with st.spinner("Extracting keywords..."):
+            keywords = extract_keywords(cleaned_text)
+        st.write("Keywords:", ", ".join(keywords))
+    if st.checkbox("Analyze Sentiment"):
+        with st.spinner("Analyzing sentiment..."):
+            sentiment = analyze_sentiment(cleaned_text)
+        st.write("Sentiment Analysis:", sentiment)