ISEA desarrolla un proyecto de clasificación Automática de Textos.

Ikerlan culmina el proyecto de renovación de su sede central.
19 septiembre, 2019
Garaia Innova. XVII
27 septiembre, 2019

ISEA desarrolla un proyecto de clasificación Automática de Textos.

ISEA desarrolla un proyecto que persigue la puesta en marcha de una de una plataforma de servicios en la nube de clasificación Automática de Textos y Filtrado de Contenidos. Desarrolla dicho Proyecto contando con la colaboración de MONDRAGON Unibertsitatea y UZEI.

Más de 90% de la información digital disponible es información no estructurada en forma de textos y documentos.  En la economía del conocimiento, la reutilización de la información del sector público y privado presenta un considerable potencial económico, habida cuenta que las empresas infomediarias (535 empresas en España) analizan y tratan información del sector público y/o privado para crear productos de valor añadido (1.550 M de € de facturación) destinados a terceras empresas o a la ciudadanía.

El proceso de re-aprovechamiento de esta información por las empresas del Sector Infomediario (Generadores de Información, Agregadores de Información, Capacitadores, Enriquecedores, etc.) precisa del desarrollo de una serie de hitos: analizar el formato, preparar y ordenar la información a través de la catalogación y la categorización.

Esta problemática es singularmente relevante en el aprovechamiento de la información abierta, habida cuenta que existe un importante volumen de información Open Data que no consigue emerger hacia la sociedad, porque su contenido es desconocido para los ciudadanos y las empresas.

Los servicios de clasificación Automática de Textos y Filtrado de Contenidos se ofertan según las siguientes tipologías de clasificación:

  • La Clasificación Decimal Universal o CDU.
  • El sistema de clasificación de UNESCO.
  • El sistema de clasificación de NEWSCODES de IPTC EuroVoc,  tesauro multilingüe y multidisciplinario que abarca la terminología de los ámbitos de actividad de la UE.

El régimen de actuación legal de la prensa on-line, las redes sociales o cualquier otro recurso digital que ofrece puerta abierta a la participación de las personas está determinado por el corpus europeo y español en materia de telecomunicaciones, comercio electrónico, Sociedad de la Información y e-Administración. 

Para que la participación en los medios sea acorde con el conjunto de dicho corpus legal, se debe garantizar el filtrado de contenidos para que los mismos no incorporen elementos atentatorios a la imagen y privacidad de las personas o incorporen actividades ilegales (por ejemplo, promoción de la prostitución, la venta de drogas, apologías diversas, etc.).

La cumplimentación manual de las labores de filtrado será poco factible y, en todo caso, costosa, por lo que es necesaria la incorporación de tecnologías filtrado de contenidos basados en Procesamiento de Lenguajes Naturales y recursos lexicográficos especializados que posibiliten la ejecución de labores de filtrado automático o supervisado.

Como resultado del proyecto, mediante un módulo de interoperabilidad grandes volúmenes de información textual (documentos, contenidos de redes sociales, noticias, flujos RS, datos Open Data textuales) podrán ser remitidas al Sistema por medio de servicios web certificados y, a modo de output del servicio, los clientes podrán recibir el conjunto de los servicios.

Finalmente, los servicios previstos en el proyecto serán ofertados bajo suscripción y serán ofertados a través de servicios web que permitirían la remisión automática de los contenidos al Sistema, quien posteriormente se responsabilizará de la labor de categorización y/o filtrado. Una vez desarrollada la versión definitiva de la aplicación y de los recursos del Servicio, se procederá a la transposición del Servicio hacia un Sistema Cloud Computing a través de un proveedor externo.