parallel-and-distributed-IR es un sistema distribuido y paralelo de recuperación de información en el cual existe una colección de documentos de texto libre o corpus y usuarios que realizan consultas o queries en busca de satisfacer una necesidad de información.
Este sistema propone aplicar técnicas de paralelización al momento de la resolución de queries del usuario de manera tal de optimizar los tiempos de respuesta. De igual manera, el sistema constará de una serie de dispositivos o nodos interconectados que garanticen una mayor confiabilidad, seguridad y disponibilidad de los servicios y datos administrados.
- Install python modules: nltk y numpy
- Rename file
config.ini.example
toconfig.ini
- Edit values of properties in file
config.ini
- Run process:
python sockets.py -v >> logs.txt
- Add libraries needed:
- Rename file
config.properties.example
toconfig.properties
- Edit values of properties in
config.properties
- Open ssh tunnel (You'll be asked to enter user and pass in the remote gpu server)
ssh -L 3491:localhost:3491 [email protected]
- Run View.InitServer
- Add libraries needed:
- Rename file
IR_servers.cfg.example
toIR_servers.cfg
- To add more servers, add their address to
IR_servers.cfg
- Rename file
config.properties.example
toconfig.properties
- Edit values of properties in
config.properties
- Run View.InitBroker
- Rename file
config.properties.example
toconfig.properties
- Edit values of properties in
config.properties
- Run View.InitClient