Diarios de Sesiones de Diputados y Senadores uruguayas: scraping y text mining

Éste es el código que usé para este artículo de mi blog donde scrapeo los Diarios de Sesiones de Diputados y Senadores de Uruguay desde enero de 2017 hasta marzo de 2018, y de este otro artículo donde analizo el texto de las sesiones

Archivos disponibles en csv (desde enero de 2017 hasta marzo de 2018):

La información a partir de la cual se construyeron los archivos proviene del sitio web del parlamento.

Paquetes destacados:

robotstxt de rOpenSci, para ver si la sección del sitio web que quiero navegar permite ser accedida por un robot 🤖;
rvest, para explorar la web y descargar los Diarios de Sesiones;
pdftools también de rOpenSci, para extraer el contenido de los archivos en formato pdf;
tidytext para analizar el texto de una manera tidy.

Lexicon de sentimiento

Utilicé este lexicon de sentimiento en mi análisis. No hay muchas opciones disponibles para el idioma español, y los resultados obtenidos tenían sentido.

No hice un análisis profundo del lexicon, pero tiene evidentes limitaciones:

tiene muy pocos términos (476 positivas de 871 en total);
la mayoría (si no todos) los adjetivos que considera son masculinos.

Contenido:

Scraping.
Frecuencia y largo de las sesiones de Diputados y Senadores.

Palabras más usadas en las sesiones de ambas Cámaras.
Palabras más usadas con sentimiento negativo y positivo, en ambas cámaras.

Análisis de sentimiento por mes y en cada sesión, para ambas Cámaras.

Análisis de temas tratados en ambas cámaras, mediante el cálculo del tf-idf.

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
SpanishSentimentLexicons		SpanishSentimentLexicons
data		data
images		images
packrat		packrat
.Rprofile		.Rprofile
.gitignore		.gitignore
01-scraping_diputados.R		01-scraping_diputados.R
02_scraping_senadores.R		02_scraping_senadores.R
03-freq-and-common-words.R		03-freq-and-common-words.R
04-sentimiento.R		04-sentimiento.R
05-tf-idf.R		05-tf-idf.R
06-pairwise-count.R		06-pairwise-count.R
07-ngrams.R		07-ngrams.R
LICENSE		LICENSE
README.md		README.md
functions.R		functions.R
uruguayan_parliamentary_session_diary.Rproj		uruguayan_parliamentary_session_diary.Rproj

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Diarios de Sesiones de Diputados y Senadores uruguayas: scraping y text mining

Archivos disponibles en csv (desde enero de 2017 hasta marzo de 2018):

Paquetes destacados:

Lexicon de sentimiento

Contenido:

About

Releases

Packages

Languages

License

d4tagirl/uruguayan_parliamentary_session_diary

Folders and files

Latest commit

History

Repository files navigation

Diarios de Sesiones de Diputados y Senadores uruguayas: scraping y text mining

Archivos disponibles en csv (desde enero de 2017 hasta marzo de 2018):

Paquetes destacados:

Lexicon de sentimiento

Contenido:

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages