--- language: el license: gpl-3.0 tags: - roberta - Greek - news - transformers - text-classification pipeline_tag: text-classification model-index: - name: mediawatch-el-topics results: - task: type: text-classification name: Multi Label Text Classification metrics: - type: roc_auc value: 98.55 name: ROCAUC - type: eval_AFFAIRS value: 98.72 name: AFFAIRS - type: eval_AGRICULTURE value: 97.99 name: AGRICULTURE - type: eval_ARTS_AND_CULTURE value: 98.38 name: ARTS_AND_CULTURE - type: eval_BREAKING_NEWS value: 96.75 name: BREAKING_NEWS - type: eval_BUSINESS value: 98.11 name: BUSINESS - type: eval_COVID value: 96.2 name: COVID - type: eval_CRIME value: 98.85 name: CRIME - type: eval_ECONOMY value: 97.65 name: ECONOMY - type: eval_EDUCATION value: 98.65 name: EDUCATION - type: eval_ELECTIONS value: 99.4 name: ELECTIONS - type: eval_ENTERTAINMENT value: 99.25 name: ENTERTAINMENT - type: eval_ENVIRONMENT value: 98.47 name: ENVIRONMENT - type: eval_FOOD value: 99.34 name: FOOD - type: eval_HEALTH value: 97.23 name: HEALTH - type: eval_INTERNATIONAL value: 96.24 name: INTERNATIONAL - type: eval_JUSTICE value: 98.62 name: JUSTICE - type: eval_LAW_AND_ORDER value: 91.77 name: LAW_AND_ORDER - type: eval_MILITARY value: 98.38 name: MILITARY - type: eval_NON_PAPER value: 95.95 name: NON_PAPER - type: eval_OPINION value: 96.24 name: OPINION - type: eval_POLITICS value: 97.73 name: POLITICS - type: eval_REFUGEE value: 99.49 name: REFUGEE - type: eval_REGIONAL value: 95.2 name: REGIONAL - type: eval_RELIGION value: 99.22 name: RELIGION - type: eval_SCIENCE value: 98.37 name: SCIENCE - type: eval_SOCIAL_MEDIA value: 99.1 name: SOCIAL_MEDIA - type: eval_SOCIETY value: 94.39 name: SOCIETY - type: eval_SPORTS value: 99.39 name: SPORTS - type: eval_TECH value: 99.23 name: TECH - type: eval_TOURISM value: 99.0 name: TOURISM - type: eval_TRANSPORT value: 98.79 name: TRANSPORT - type: eval_TRAVEL value: 98.32 name: TRAVEL - type: eval_WEATHER value: 99.5 name: WEATHER widget: - text: "Παρ’ ολίγον «θερμό» επεισόδιο τουρκικού πολεμικού πλοίου με ελληνικό ωκεανογραφικό στην περιοχή μεταξύ Ρόδου και Καστελόριζου, στο διάστημα 20-23 Σεπτεμβρίου, αποκάλυψε το ΟΡΕΝ. Σύμφωνα με πληροφορίες που μετέδωσε το κεντρικό δελτίο ειδήσεων, όταν το ελληνικό ερευνητικό « ΑΙΓΑΙΟ » που ανήκει στο Ελληνικό Κέντρο Θαλασσίων Ερευνών βγήκε έξω από τα 6 ν.μ, σε διεθνή ύδατα, το προσέγγισε τουρκικό πολεμικό πλοίο, ο κυβερνήτης του οποίου ζήτησε δύο φορές μέσω ασυρμάτου να ενημερωθεί για τα στοιχεία του πλοίου, αλλά και για την αποστολή του. Ο πλοίαρχος του ελληνικού ερευνητικού δεν απάντησε και τελικά το τουρκικό πολεμικό απομακρύνθηκε." example_title: Topic AFFAIRS - text: "Η κυβερνητική ανικανότητα οδηγεί την χώρα στο χάος. Η κυβερνηση Μητσοτακη αδυνατεί να διαχειριστεί την πανδημία. Δεν μπορει ούτε να πείσει τον κόσμο να εμβολιαστεί, που ήταν το πιο απλο πράγμα. Σημερα λοιπόν φτάσαμε στο σημείο να μιλάμε για επαναφορά της χρήσης μάσκας σε εξωτερικούς χώρους ακόμη και όπου δεν υπάρχει συγχρωτισμός. Στις συζητήσεις των ειδικών θα βρεθεί επίσης το ενδεχόμενο για τοπικά lockdown σε περιοχές με βαρύ ιικό φορτίο για να μην ξεφύγει η κατάσταση, ενώ θα χρειάζεται κάποιος για τις μετακινήσεις του είτε πιστοποιητικό εμβολιασμού ή νόσησης και οι ανεμβολίαστοι rapid ή μοριακό τεστ." example_title: Topic COVID - text: "Η «ωραία Ελένη» επέστρεψε στην τηλεόραση, μέσα από τη συχνότητα του MEGA και άφησε τις καλύτερες εντυπώσεις. Το πλατό από το οποίο εμφανίζεται η Ελένη Μενεγάκη έχει φτιαχτεί από την αρχή για την εκπομπή της. Σήμερα, στο κλείσιμο της εκπομπής η Ελένη πέρασε ανάμεσα από τις κάμερες για να μπει στο καμαρίνι της «Μην τρομοκρατείστε, είμαι η Ελένη Μενεγάκη, τα κάνω αυτά. Με συγχωρείται, έχω ψυχολογικά αν δεν είμαι ελεύθερη» είπε αρχικά η παρουσιάστρια στους συνεργάτες της και πρόσθεσε στη συνέχεια: «Η Ελένη ολοκλήρωσε. Μπορείτε να συνεχίσετε με το υπόλοιπο πρόγραμμα του Mega. Εγώ ανοίγω το καμαρίνι, αν με αφήσουν. Μπαίνω καμαρίνι». Δείτε το απόσπασμα!" example_title: Topic ENTERTAINMENT - text: "Ένα εξαιρετικά ενδιαφέρον «κουτσομπολιό» εντόπισαν οι κεραίες της στήλης πέριξ του Μεγάρου Μαξίμου : το κατά πόσον, δηλαδή, ο «εξ απορρήτων» του Κυριάκου Μητσοτάκη , Γιώργος Γεραπετρίτης μετέχει στη διαχείριση της πανδημίας και στην διαδικασία λήψης αποφάσεων. Το εν λόγω «κουτσομπολιό» πυροδότησε το γεγονός ότι σε σαββατιάτικη εφημερίδα δημοσιεύθηκαν προχθές δηλώσεις του υπουργού Επικρατείας με τις οποίες απέκλειε κάθε σενάριο νέων οριζόντιων μέτρων και την ίδια ώρα, το Μαξίμου ανήγγελλε… καραντίνα στη Μύκονο. «Είναι αυτονόητο ότι η κοινωνία και η οικονομία δεν αντέχουν οριζόντιους περιορισμούς», έλεγε χαρακτηριστικά ο Γεραπετρίτης, την ώρα που η κυβέρνηση ανακοίνωνε… αυτούς τους οριζόντιους περιορισμούς. Ως εκ τούτων, δύο τινά μπορεί να συμβαίνουν: είτε ο υπουργός Επικρατείας δεν μετέχει πλέον στη λήψη των αποφάσεων, είτε η απόφαση για οριζόντια μέτρα ελήφθη υπό το κράτος πανικού το πρωί του Σαββάτου, όταν έφτασε στο Μαξίμου η τελευταία «φουρνιά» των επιδημιολογικών δεδομένων για το νησί των ανέμων…" example_title: Topic NON_PAPER - text: "Είναι ξεκάθαρο ότι μετά το πλήγμα που δέχθηκε η κυβέρνησή του από τις αδυναμίες στην αντιμετώπιση των καταστροφικών πυρκαγιών το μεγάλο στοίχημα για τον Κυριάκο Μητσοτάκη είναι να προχωρήσει συντεταγμένα και χωρίς παρατράγουδα ο σχεδιασμός για την αποκατάσταση των ζημιών. Ο Πρωθυπουργός έχει ήδη φτιάξει μια ομάδα κρούσης την οποία αποτελούν 9 υπουργοί. Τα μέλη που απαρτίζουν την ομάδα κρούσης και τα οποία βρίσκονται σε συνεχή, καθημερινή επαφή με τον Κυριάκο Μητσοτάκη είναι, όπως μας πληροφορεί η στήλη «Θεωρείο» της «Καθημερινής» είναι οι: Γ. Γεραπετρίτης, Α. Σκέρτσος, Χρ. Τριαντόπουλος, Κ. Καραμανλής, Κ. Σκρέκας, Στ. Πέτσας, Σπ. Λιβανός και φυσικά οι Χρ. Σταικούρας και Θ. Σκυλακάκης." example_title: Topic OPINION --- **Disclaimer**: *This model is still under testing and may change in the future, we will try to keep backwards compatibility. For any questions reach us at info@cvcio.org* # MediaWatch News Topics (Greek) Fine-tuned model for multi-label text-classification (SequenceClassification), based on [roberta-el-news](https://huggingface.co/cvcio/roberta-el-news), using [Hugging Face's](https://huggingface.co/) [Transformers](https://github.com/huggingface/transformers) library. This model is to classify news in real-time on upto 33 topics including: *AFFAIRS*, *AGRICULTURE*, *ARTS_AND_CULTURE*, *BREAKING_NEWS*, *BUSINESS*, *COVID*, *ECONOMY*, *EDUCATION*, *ELECTIONS*, *ENTERTAINMENT*, *ENVIRONMENT*, *FOOD*, *HEALTH*, *INTERNATIONAL*, *LAW_AND_ORDER*, *MILITARY*, *NON_PAPER*, *OPINION*, *POLITICS*, *REFUGEE*, *REGIONAL*, *RELIGION*, *SCIENCE*, *SOCIAL_MEDIA*, *SOCIETY*, *SPORTS*, *TECH*, *TOURISM*, *TRANSPORT*, *TRAVEL*, *WEATHER*, *CRIME*, *JUSTICE*. ## How to use You can use this model directly with a pipeline for text-classification: ```python from transformers import pipeline pipe = pipeline( task="text-classification", model="cvcio/mediawatch-el-topics", tokenizer="cvcio/roberta-el-news" # or cvcio/mediawatch-el-topics ) topics = pipe( "Η βιασύνη αρκετών χωρών να άρουν τους περιορισμούς κατά του κορονοϊού, "+ "αν όχι να κηρύξουν το τέλος της πανδημίας, με το σκεπτικό ότι έφτασε "+ "πλέον η ώρα να συμβιώσουμε με την Covid-19, έχει κάνει μερικούς πιο "+ "επιφυλακτικούς επιστήμονες να προειδοποιούν ότι πρόκειται μάλλον "+ "για «ενδημική αυταπάτη» και ότι είναι πρόωρη τέτοια υπερβολική "+ "χαλάρωση. Καθώς τα κρούσματα της Covid-19, μετά το αιφνιδιαστικό "+ "μαζικό κύμα της παραλλαγής Όμικρον, εμφανίζουν τάση υποχώρησης σε "+ "Ευρώπη και Βόρεια Αμερική, όπου περισσεύει η κόπωση μεταξύ των "+ "πολιτών μετά από δύο χρόνια πανδημίας, ειδικοί και μη αδημονούν να "+ "«ξεμπερδέψουν» με τον κορονοϊό.", padding=True, truncation=True, max_length=512, return_all_scores=True ) print(topics) # outputs [ [ {'label': 'AFFAIRS', 'score': 0.0018806682201102376}, {'label': 'AGRICULTURE', 'score': 0.00014653144171461463}, {'label': 'ARTS_AND_CULTURE', 'score': 0.0012948638759553432}, {'label': 'BREAKING_NEWS', 'score': 0.0001729220530251041}, {'label': 'BUSINESS', 'score': 0.0028276608791202307}, {'label': 'COVID', 'score': 0.4407998025417328}, {'label': 'ECONOMY', 'score': 0.039826102554798126}, {'label': 'EDUCATION', 'score': 0.0019098613411188126}, {'label': 'ELECTIONS', 'score': 0.0003333651984576136}, {'label': 'ENTERTAINMENT', 'score': 0.004249618388712406}, {'label': 'ENVIRONMENT', 'score': 0.0015828514005988836}, {'label': 'FOOD', 'score': 0.0018390495097264647}, {'label': 'HEALTH', 'score': 0.1204477995634079}, {'label': 'INTERNATIONAL', 'score': 0.25892165303230286}, {'label': 'LAW_AND_ORDER', 'score': 0.07646272331476212}, {'label': 'MILITARY', 'score': 0.00033025629818439484}, {'label': 'NON_PAPER', 'score': 0.011991199105978012}, {'label': 'OPINION', 'score': 0.16166265308856964}, {'label': 'POLITICS', 'score': 0.0008890336030162871}, {'label': 'REFUGEE', 'score': 0.0011504743015393615}, {'label': 'REGIONAL', 'score': 0.0008734092116355896}, {'label': 'RELIGION', 'score': 0.0009001944563351572}, {'label': 'SCIENCE', 'score': 0.05075162276625633}, {'label': 'SOCIAL_MEDIA', 'score': 0.00039615994319319725}, {'label': 'SOCIETY', 'score': 0.0043518817983567715}, {'label': 'SPORTS', 'score': 0.002416545059531927}, {'label': 'TECH', 'score': 0.0007818648009561002}, {'label': 'TOURISM', 'score': 0.011870541609823704}, {'label': 'TRANSPORT', 'score': 0.0009422845905646682}, {'label': 'TRAVEL', 'score': 0.03004464879631996}, {'label': 'WEATHER', 'score': 0.00040286066359840333}, {'label': 'CRIME', 'score': 0.0005416403291746974}, {'label': 'JUSTICE', 'score': 0.000990519649349153} ] ] ``` ## Labels All labels, except *NON_PAPER*, retrieved by source articles during the data collection step, without any preprocessing, assuming that journalists and newsrooms assign correct tags to the articles. We disregarded all articles with more than 6 tags to reduce bias and tag manipulation. | label | roc_auc | samples | |-------:|--------:|--------:| | AFFAIRS | 0.9872 | 6,314 | | AGRICULTURE | 0.9799 | 1,254 | | ARTS_AND_CULTURE | 0.9838 | 15,968 | | BREAKING_NEWS | 0.9675 | 827 | | BUSINESS | 0.9811 | 6,507 | | COVID | 0.9620 | 50,000 | | CRIME | 0.9885 | 34,421 | | ECONOMY | 0.9765 | 45,474 | | EDUCATION | 0.9865 | 10,111 | | ELECTIONS | 0.9940 | 7,571 | | ENTERTAINMENT | 0.9925 | 23,323 | | ENVIRONMENT | 0.9847 | 23,060 | | FOOD | 0.9934 | 3,712 | | HEALTH | 0.9723 | 16,852 | | INTERNATIONAL | 0.9624 | 50,000 | | JUSTICE | 0.9862 | 4,860 | | LAW_AND_ORDER | 0.9177 | 50,000 | | MILITARY | 0.9838 | 6,536 | | NON_PAPER | 0.9595 | 4,589 | | OPINION | 0.9624 | 6,296 | | POLITICS | 0.9773 | 50,000 | | REFUGEE | 0.9949 | 4,536 | | REGIONAL | 0.9520 | 50,000 | | RELIGION | 0.9922 | 11,533 | | SCIENCE | 0.9837 | 1,998 | | SOCIAL_MEDIA | 0.991 | 6,212 | | SOCIETY | 0.9439 | 50,000 | | SPORTS | 0.9939 | 31,396 | | TECH | 0.9923 | 8,225 | | TOURISM | 0.9900 | 8,081 | | TRANSPORT | 0.9879 | 3,211 | | TRAVEL | 0.9832 | 4,638 | | WEATHER | 0.9950 | 19,931 | | loss | 0.0533 | - | | roc_auc | 0.9855 | - | ## Pretraining The model was pretrained using an NVIDIA A10 GPU for 15 epochs (~ approx 59K steps, 8 hours training) with a batch size of 128. The optimizer used is Adam with a learning rate of 1e-5, and weight decay 0.01. We used roc_auc_micro to evaluate the results. ### Framework versions - Transformers 4.13.0 - Pytorch 1.9.0+cu111 - Datasets 1.16.1 - Tokenizers 0.10.3 ## Authors Dimitris Papaevagelou - [@andefined](https://github.com/andefined) ## About Us [Civic Information Office](https://cvcio.org/) is a Non Profit Organization based in Athens, Greece focusing on creating technology and research products for the public interest.