Skip to content

Code for my blog post about text mining uruguayan Parliamentary sessions 🇺🇾

License

Notifications You must be signed in to change notification settings

d4tagirl/uruguayan_parliamentary_session_diary

Repository files navigation

Diarios de Sesiones de Diputados y Senadores uruguayas: scraping y text mining

Éste es el código que usé para este artículo de mi blog donde scrapeo los Diarios de Sesiones de Diputados y Senadores de Uruguay desde enero de 2017 hasta marzo de 2018, y de este otro artículo donde analizo el texto de las sesiones

Archivos disponibles en csv (desde enero de 2017 hasta marzo de 2018):

La información a partir de la cual se construyeron los archivos proviene del sitio web del parlamento.

Paquetes destacados:

  • robotstxt de rOpenSci, para ver si la sección del sitio web que quiero navegar permite ser accedida por un robot 🤖;
  • rvest, para explorar la web y descargar los Diarios de Sesiones;
  • pdftools también de rOpenSci, para extraer el contenido de los archivos en formato pdf;
  • tidytext para analizar el texto de una manera tidy.

Lexicon de sentimiento

Utilicé este lexicon de sentimiento en mi análisis. No hay muchas opciones disponibles para el idioma español, y los resultados obtenidos tenían sentido.

No hice un análisis profundo del lexicon, pero tiene evidentes limitaciones:

  • tiene muy pocos términos (476 positivas de 871 en total);
  • la mayoría (si no todos) los adjetivos que considera son masculinos.

Contenido:

  • Scraping.
  • Frecuencia y largo de las sesiones de Diputados y Senadores.

Frecuencia de las sesiones de Diputados y Senadores Largo de las sesiones de Diputados y Senadores

  • Palabras más usadas en las sesiones de ambas Cámaras.
  • Palabras más usadas con sentimiento negativo y positivo, en ambas cámaras.

Palabras más usadas con sentimiento negativo y positivo, en ambas cámaras

  • Análisis de sentimiento por mes y en cada sesión, para ambas Cámaras.

Análisis de sentimiento por mes y en cada sesión, para ambas Cámaras

  • Análisis de temas tratados en ambas cámaras, mediante el cálculo del tf-idf.

Análisis de temas tratados en Diputados

Análisis de temas tratados en Senadores

About

Code for my blog post about text mining uruguayan Parliamentary sessions 🇺🇾

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages