ISEA desarrolla un proyecto que persigue la puesta en marcha de una de una plataforma de servicios en la nube de clasificación Automática de Textos y Filtrado de Contenidos. Desarrolla dicho Proyecto contando con la colaboración de MONDRAGON Unibertsitatea y UZEI.
Más de 90% de la información digital disponible es información no
estructurada en forma de textos y documentos. En la economía del
conocimiento, la reutilización de la información del sector público y privado
presenta un considerable potencial económico, habida cuenta que las
empresas infomediarias (535 empresas en España) analizan
y tratan información del sector público y/o privado para crear productos de
valor añadido (1.550 M de € de facturación) destinados a
terceras empresas o a la ciudadanía.
El proceso de re-aprovechamiento de esta información por las
empresas del Sector Infomediario (Generadores de Información,
Agregadores de Información, Capacitadores, Enriquecedores, etc.) precisa del
desarrollo de una serie de hitos: analizar el formato, preparar y
ordenar la información a través de la catalogación y la categorización.
Esta problemática es singularmente relevante en el aprovechamiento de
la información abierta, habida cuenta que existe un importante volumen de
información Open Data que no consigue emerger hacia la sociedad, porque su
contenido es desconocido para los ciudadanos y las empresas.
Los servicios de clasificación Automática de Textos y Filtrado de Contenidos
se ofertan según las siguientes tipologías de clasificación:
- La Clasificación
Decimal Universal o CDU.
- El sistema de
clasificación de UNESCO.
- El sistema de
clasificación de NEWSCODES de IPTC EuroVoc, tesauro
multilingüe y multidisciplinario que abarca la terminología de los ámbitos
de actividad de la UE.
El régimen de
actuación legal de la prensa on-line, las redes sociales o cualquier otro
recurso digital que ofrece puerta abierta a la participación de las personas
está determinado por el corpus europeo y español en materia de
telecomunicaciones, comercio electrónico, Sociedad de la Información y e-Administración.
Para que la participación en los medios sea acorde con el conjunto de dicho
corpus legal, se debe garantizar el filtrado de contenidos para que los
mismos no incorporen elementos atentatorios a la imagen y privacidad de las
personas o incorporen actividades ilegales (por ejemplo, promoción de
la prostitución, la venta de drogas, apologías diversas, etc.).
La cumplimentación manual de las labores de filtrado será poco factible y,
en todo caso, costosa, por lo que es necesaria la incorporación de tecnologías
filtrado de contenidos basados en Procesamiento de Lenguajes Naturales y
recursos lexicográficos especializados que posibiliten la ejecución de labores
de filtrado automático o supervisado.
Como
resultado del proyecto, mediante un módulo de interoperabilidad grandes volúmenes de información
textual (documentos, contenidos de redes sociales, noticias, flujos RS, datos
Open Data textuales) podrán ser remitidas al Sistema por medio de servicios
web certificados y, a modo de output del servicio, los
clientes podrán recibir el conjunto de los servicios.
Finalmente, los servicios previstos en el proyecto serán ofertados bajo suscripción y serán ofertados a través de servicios web que permitirían la remisión automática de los contenidos al Sistema, quien posteriormente se responsabilizará de la labor de categorización y/o filtrado. Una vez desarrollada la versión definitiva de la aplicación y de los recursos del Servicio, se procederá a la transposición del Servicio hacia un Sistema Cloud Computing a través de un proveedor externo.