pierreguillou
commited on
Commit
·
afb4867
1
Parent(s):
57f5b08
Update app.py
Browse files
app.py
CHANGED
@@ -24,9 +24,9 @@ kw_model = {
|
|
24 |
## KeyphraseVectorizers
|
25 |
# source: https://github.com/TimSchopf/KeyphraseVectorizers#keyphrasevectorizers
|
26 |
|
27 |
-
|
28 |
-
|
29 |
-
|
30 |
|
31 |
# Part-of-Speech Tagging for Portuguese (https://melaniewalsh.github.io/Intro-Cultural-Analytics/05-Text-Analysis/Multilingual/Portuguese/03-POS-Keywords-Portuguese.html)
|
32 |
pos_pattern='<CONJ.*>*<ADP.*>*<ADV.*>*<NUM.*>*<ADJ.*>*<N.*>+'
|
@@ -135,6 +135,20 @@ description = '<p>(17/12/2022) Forneça seu próprio documento em português e o
|
|
135 |
<br />- <a href="https://github.com/TimSchopf/KeyphraseVectorizers#keyphrasevectorizers">KeyphraseVectorizers</a> para definir o vetorizador que extrai palavras/frases chave com padrões de parte do texto de um documento.\
|
136 |
<br />- <a href="https://maartengr.github.io/KeyBERT/index.html">KeyBERT</a> para calcular as similaridades entre as palavras/frases chave e o texto do documento.</p>'
|
137 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
138 |
examples = [
|
139 |
[doc_original.strip()],
|
140 |
]
|
|
|
24 |
## KeyphraseVectorizers
|
25 |
# source: https://github.com/TimSchopf/KeyphraseVectorizers#keyphrasevectorizers
|
26 |
|
27 |
+
download spacy pipeline (https://spacy.io/models/pt)
|
28 |
+
source: https://melaniewalsh.github.io/Intro-Cultural-Analytics/05-Text-Analysis/Multilingual/Portuguese/03-POS-Keywords-Portuguese.html
|
29 |
+
os.system("python -m spacy download pt_core_news_lg")
|
30 |
|
31 |
# Part-of-Speech Tagging for Portuguese (https://melaniewalsh.github.io/Intro-Cultural-Analytics/05-Text-Analysis/Multilingual/Portuguese/03-POS-Keywords-Portuguese.html)
|
32 |
pos_pattern='<CONJ.*>*<ADP.*>*<ADV.*>*<NUM.*>*<ADJ.*>*<N.*>+'
|
|
|
135 |
<br />- <a href="https://github.com/TimSchopf/KeyphraseVectorizers#keyphrasevectorizers">KeyphraseVectorizers</a> para definir o vetorizador que extrai palavras/frases chave com padrões de parte do texto de um documento.\
|
136 |
<br />- <a href="https://maartengr.github.io/KeyBERT/index.html">KeyBERT</a> para calcular as similaridades entre as palavras/frases chave e o texto do documento.</p>'
|
137 |
|
138 |
+
doc_original = """
|
139 |
+
As contas de pelo menos seis jornalistas norte-americanos que cobrem tecnologia foram suspensas pelo Twitter na noite desta quinta-feira (15). Os profissionais escrevem sobre o tema para diversos veículos de comunicação dos Estados Unidos, como os jornais 'The New York Times' e 'Washington Post'.
|
140 |
+
|
141 |
+
A rede social afirmou apenas que suspende contas que violam as regras, mas não deu mais detalhes sobre os bloqueios.
|
142 |
+
|
143 |
+
Assim que comprou o Twitter, Elon Musk disse defender a liberdade de expressão, e reativou, inclusive, a conta do ex-presidente Donald Trump, suspensa desde o ataque ao Capitólio, em 2021.
|
144 |
+
|
145 |
+
Os jornalistas que tiveram as contas bloqueadas questionaram o compromisso de Musk com a liberdade de expressão.
|
146 |
+
|
147 |
+
Eles encararam o bloqueio como uma retaliação de Musk às críticas que o bilionário vem recebendo pela forma como está conduzindo a rede social: com demissões em massa e o desmonte de áreas, como o conselho de confiança e segurança da empresa.
|
148 |
+
|
149 |
+
Metade dos funcionários do Twitter foram demitidos desde que ele assumiu o comando da empresa e outros mil pediram demissão.
|
150 |
+
"""
|
151 |
+
|
152 |
examples = [
|
153 |
[doc_original.strip()],
|
154 |
]
|