Escrito por Ana Canteli en abril 03, 2019
La sumarización automática, es el proceso por el que un software consigue resumir un documento que condense el contenido de dicho escrito. Las soluciones tecnológicas capaces de crear resúmenes válidos tienen en cuenta variables como la longitud, el estilo o la sintaxis.
La extracción automática de palabras clave es uno de los 2 enfoques principales en materia de sumarización automática, que pivotan entre la extracción y la abstracción. Los métodos extractivos se centran en la selección de un conjunto de palabras u oraciones del texto original para crear el resumen. Mientras que los métodos abstractivos construyen una representación semántica interna, para la que es necesaria el uso de técnicas de generación de lenguaje natural, para crear un resumen lo más parecido posible a lo que un humano podría redactar. En este artículo, nos dedicaremos al enfoque extractivo, que es una técnica muy utilizada hoy en día; los motores de búsqueda son sólo un ejemplo.
Las palabras clave o las frases clave son ampliamente utilizadas en la gestión de grandes repositorios documentales. Son capaces de describir el contenido de archivos y proporcionan metadatos semánticos útiles para multitud de objetivos o propósitos. En el caso de contenidos académicos, los autores incluyen manualmente una selección de palabras clave que representan el contenido del artículo, que ayuda a la recuperación de información. Para ello, la identificación de vocablos relevantes dentro de un conjunto de documentos, es esencial para poder indexar los contenidos; con el objetivo de orientar al usuario en la búsqueda de información y mejorar su experiencia tanto de búsqueda, como de recuperación de contenidos. A esta tarea se la llama indexación por palabras clave. Sin embargo la mayor parte de textos carecen de esta información, de ahí que la extracción automática de palabras clave se haya convertido en esencial, en un mundo en el que se crea información y documentación de forma exponencial.
Los usuarios de la red utilizamos diariamente motores de búsqueda, tales como google o bing entre otros. Probablemente sin darnos cuenta que, cuando realizamos consultas en los buscadores; en realidad estamos realizando consultas sobre información que previamente ha sido analizada y en la cual se ha identificado previamente cual es el asunto del que trata.
Los motores de búsqueda, cuentan con potentes algoritmos de machine learning (inteligencia artificial) que aplican la minería de datos (big data). Éstos, utilizan los algoritmos para identificar, filtrar y evaluar qué palabras clave son relevantes en función del tipo de búsqueda; lo cual permite hacerse una idea del contenido, lo que a su vez ayuda a acceder a él.
En definitiva, el proceso mediante el cual los motores de búsqueda - que utilizan millones de usuarios diariamente - establecen el asunto de una página web en la forma de palabras clave y frases es una parte crítica del proceso de indexación, que posteriormente nos ayudará a localizar la información mediante los buscadores.
Una correcta indexación facilitará la identificación y localización de la información de forma inmediata cumpliéndo así con los dos objetivos principales del proceso:
Para las organizaciones, supone una importante inversión en recursos humanos, tiempo y dinero organizar, clasificar y facilitar la recuperación de la información en el seno de la entidad. Por ello la extracción de palabras clave es parte de la solución para la mejor gestión de la información en las empresas.
El sistema de gestión documental de OpenKM proporciona el entorno adecuado en el que la gestión de datos e información se incorpora de forma transparente a los procesos de negocio. Cuando introducimos un documento en el gestor documental, el sistema automáticamente va a someter al archivo a un proceso de extracción de texto. El software, que a través de un API REST incluye el servicio de sumarización automática KEA (Keyphrase Extraction Algorithm ) es capaz identificar y extraer las palabras clave significativas del documento. Además, este servicio de sumarización, nos permitirá elegir e implementar el modelo de extracción de palabras clave que más nos interese.
La extracción automática de palabras clave puede ser utilizada en diversas etapas de la gestión documental:
Encontrarán más información sobre la sumarización automática y la extracción automática de palabras clave en la documentación de OpenKM y en http://community.nzdl.org/kea/index.html
Norteamérica: Si necesita comunicarse con nosotros, por favor llame al +1 646 206 6071.
Horario de oficina:
Lunes - Viernes: 08:00 am - 12:00 pm, 14:00 pm - 18:00 pm EST. Ahora son las 09:55 am del Jueves en New York, USA.
Europa España: Si necesita comunicarse con nosotros, por favor llame al +34 605 074 544.
Horario de oficina:
Lunes - Viernes: 09:00 am - 14:00 pm, 16:00 pm - 19:00 pm CET. Ahora son las 15:55 pm del Jueves en Palma de Mallorca, Spain.
OpenKM en el mundo: