La solución pasa por utilizar las clases que gentilmente nos presta Arthur Do de la Universidad de Stanford en http://www.do.org El objetivo del ejercicio es ejercitarse en tres dimensiones:
La clases propias que se implementan son:
Tras un análisis de la gramática HTML de la página requerida este servlet realiza un "matching" palabra por palabra en un diccionario cargado previamente en memória. La búsqueda se realiza por el algoritmo de hash propio de la clase estándar Hashtable.
CapturaParaulesServlet.java:
Uno de los problemas de este ejercicio es la obtención de un diccionario de palabras. Para ello puede utilizarse esta clase que basada en los mismos principios que la anterior almacena en el fichero dicci.txt las palabras capturadas durante la navegación. En un posterior tratamiento en base de datos local (pej. con MS Access) se pueden eliminar valores duplicados y pulir el diccionario. Una vez preparado ya puede ser usado por PunxaServlet.
El programa puede adaptarse a otros idiomas suministrando el diccionario adecuado.