Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Cambio dataset de ARG y agrego preprocesado #4

Open
wants to merge 1 commit into
base: master
Choose a base branch
from

Conversation

ignacioSaccomano
Copy link

Notas de los aportes más importantes:

👉 Soy de Argentina y algunas palabras del dataset no eran consideradas insultos acá. Las que dejé considero que son bastante útiles porque representan la mayoría de casos.

👉 Agregué la clase RemoveDuplicates: Remueve caracteres duplicados en las palabras. Si bien no es bueno para palabras inocuas que contienen letras duplicadas, es excelente para no dejar pasar casos donde los usuarios repiten letras en insultos para saltearse filtros.

🗂️ En cuanto a los otros archivos, agregue algunos que permiten ahorrar un poco de tiempo a la hora de crear mas datasets o actualizarlos, ya que la mayoría de insultos tienen dos géneros (con la implementación se escriben una sola vez en el archivo).

Espero que sirva, y ante cualquier novedad me encantaría permanecer en contacto!

@jfreddypuentes jfreddypuentes self-assigned this Jun 15, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants