Cambio dataset de ARG y agrego preprocesado #4

ignacioSaccomano · 2023-04-01T17:39:26Z

Notas de los aportes más importantes:

👉 Soy de Argentina y algunas palabras del dataset no eran consideradas insultos acá. Las que dejé considero que son bastante útiles porque representan la mayoría de casos.

👉 Agregué la clase RemoveDuplicates: Remueve caracteres duplicados en las palabras. Si bien no es bueno para palabras inocuas que contienen letras duplicadas, es excelente para no dejar pasar casos donde los usuarios repiten letras en insultos para saltearse filtros.

🗂️ En cuanto a los otros archivos, agregue algunos que permiten ahorrar un poco de tiempo a la hora de crear mas datasets o actualizarlos, ya que la mayoría de insultos tienen dos géneros (con la implementación se escriben una sola vez en el archivo).

Espero que sirva, y ante cualquier novedad me encantaría permanecer en contacto!

Cambio dataset de ARG y agrego preprocesado

2d3ee66

jfreddypuentes self-assigned this Jun 15, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Cambio dataset de ARG y agrego preprocesado #4

Cambio dataset de ARG y agrego preprocesado #4

ignacioSaccomano commented Apr 1, 2023

Cambio dataset de ARG y agrego preprocesado #4

Are you sure you want to change the base?

Cambio dataset de ARG y agrego preprocesado #4

Conversation

ignacioSaccomano commented Apr 1, 2023