Pour le 19/11 :
- vectorisation des données (Qinliang + Natacha)
- extraction textes + partis politiques correspondants
- vectorisation des données textuelles (TF-IDF)
- réfléchir à la réduction de dimensions
- script à commit dans un dossier scripts
- stop-words (Léna)
- tester listes stop-words Spacy pour les trois langues considérés (surtout Italien)
faire nos propres listes ?- à noter : les listes de
stopwordsiso
ne prennent pas en compte les articles contractés pour le français et l'italien.
Pour le 02/12 :
- premier modèle sur nos données :
arbre de décisionRandom Forest!- pour le moment avec nos données vectorisées, on verra + tard si on se charge des clitiques (ça sera mieux pour le français + italien)
- avoir bien commencé l'état de l'art (ça sera sur le rendu final)
Pour le 18/12 :
- terminer modèle Random Forest (on vire GridSearch) => résultats (matrices de confusion + mesures) (Léna)
- trouver des articles pour état de l'art sur la régression logistique (Natacha)
- commencer à rédiger état de l'art Random Forest (Natacha)
-
commencerscript régression logistique (Qinliang)
Pour le 29/12 :
- état-de-l'art LR
- mise en forme sur template Overleaf
- RF cross validation
- vectorisation Chen 2021 + LR // + RF
- rédaction résultats
Date limite (perso) : 30/12