Éste es el código que usé para este artÃculo de mi blog donde scrapeo los Diarios de Sesiones de Diputados y Senadores de Uruguay desde enero de 2017 hasta marzo de 2018, y de este otro artÃculo donde analizo el texto de las sesiones
La información a partir de la cual se construyeron los archivos proviene del sitio web del parlamento.
robotstxt
de rOpenSci, para ver si la sección del sitio web que quiero navegar permite ser accedida por un robot 🤖;rvest
, para explorar la web y descargar los Diarios de Sesiones;pdftools
también de rOpenSci, para extraer el contenido de los archivos en formato pdf;tidytext
para analizar el texto de una manera tidy.
Utilicé este lexicon de sentimiento en mi análisis. No hay muchas opciones disponibles para el idioma español, y los resultados obtenidos tenÃan sentido.
No hice un análisis profundo del lexicon, pero tiene evidentes limitaciones:
- tiene muy pocos términos (476 positivas de 871 en total);
- la mayorÃa (si no todos) los adjetivos que considera son masculinos.
- Scraping.
- Frecuencia y largo de las sesiones de Diputados y Senadores.
- Palabras más usadas en las sesiones de ambas Cámaras.
- Palabras más usadas con sentimiento negativo y positivo, en ambas cámaras.
- Análisis de sentimiento por mes y en cada sesión, para ambas Cámaras.
- Análisis de temas tratados en ambas cámaras, mediante el cálculo del tf-idf.