Skip to content

Latest commit

 

History

History
30 lines (26 loc) · 1.42 KB

to-do.md

File metadata and controls

30 lines (26 loc) · 1.42 KB

Pour le 19/11 :

  • vectorisation des données (Qinliang + Natacha)
    • extraction textes + partis politiques correspondants
    • vectorisation des données textuelles (TF-IDF)
    • réfléchir à la réduction de dimensions
    • script à commit dans un dossier scripts
  • stop-words (Léna)
    • tester listes stop-words Spacy pour les trois langues considérés (surtout Italien)
    • faire nos propres listes ?
    • à noter : les listes de stopwordsiso ne prennent pas en compte les articles contractés pour le français et l'italien.

Pour le 02/12 :

  • premier modèle sur nos données : arbre de décision Random Forest!
    • pour le moment avec nos données vectorisées, on verra + tard si on se charge des clitiques (ça sera mieux pour le français + italien)
  • avoir bien commencé l'état de l'art (ça sera sur le rendu final)

Pour le 18/12 :

  • terminer modèle Random Forest (on vire GridSearch) => résultats (matrices de confusion + mesures) (Léna)
  • trouver des articles pour état de l'art sur la régression logistique (Natacha)
  • commencer à rédiger état de l'art Random Forest (Natacha)
  • commencer script régression logistique (Qinliang)

Pour le 29/12 :

  • état-de-l'art LR
  • mise en forme sur template Overleaf
  • RF cross validation
  • vectorisation Chen 2021 + LR // + RF
  • rédaction résultats

Date limite (perso) : 30/12