Pour le 19/11 :

vectorisation des données (Qinliang + Natacha)
- extraction textes + partis politiques correspondants
- vectorisation des données textuelles (TF-IDF)
- réfléchir à la réduction de dimensions
- script à commit dans un dossier scripts
stop-words (Léna)
- tester listes stop-words Spacy pour les trois langues considérés (surtout Italien)
- ~~faire nos propres listes ?~~
- à noter : les listes de stopwordsiso ne prennent pas en compte les articles contractés pour le français et l'italien.

Pour le 02/12 :

premier modèle sur nos données : ~~arbre de décision~~ Random Forest!
- pour le moment avec nos données vectorisées, on verra + tard si on se charge des clitiques (ça sera mieux pour le français + italien)
avoir bien commencé l'état de l'art (ça sera sur le rendu final)

Pour le 18/12 :

terminer modèle Random Forest (on vire GridSearch) => résultats (matrices de confusion + mesures) (Léna)
trouver des articles pour état de l'art sur la régression logistique (Natacha)
commencer à rédiger état de l'art Random Forest (Natacha)
~~commencer~~ script régression logistique (Qinliang)

Pour le 29/12 :

Date limite (perso) : 30/12

Provide feedback

Saved searches