Inicio Biblioteca Complutense Catálogo Cisne Colección Digital Complutense

Investigación en la era de los big data #WLIC2014

Andoni Calderón Rehecho 25 de Agosto de 2014 a las 12:49 h

El martes acudimos a una sesión organizada por 3 secciones o grupos de trabajo: Academic Research Libraries), Serials and Other Continuing Resource y Committee on Copyright and other Legal Matters. Su tema girando sobre los big data (Research in the big data era: legal, social and technical approaches to large text and data sets). El problema, que la reunión del comité permanente al que pertenezco me impedía estar más de 2 horas en esta sesión. Añadido a que en esta ocasión las preguntas se realizaban tras cada intervención (y a un cierto retraso provocado por la sesión anterior) sólo pude presenciar 3. La segunda de ellas nos pareció la mejor de las que habíamos visto hasta entonces (otra cuestión es que estemos de acuerdo con sus conclusiones) y según nos han comentado varias compañeras, la cuarta (http://library.ifla.org/1007/) fue la mejor de todas.

 

1. Mining large datasets for the humanities

Peter Leonard nos habla de minería de datos para las Humanidades. Parte de una frase en la que se pregunta cómo pueden los bibliotecarios apoyar a los académicos de las Humanidades dando sentido a las grandes colecciones digitalizadas de materiales culturales fijándose en los 3 conceptos que organizan su exposición y para cada uno de los cuáles mencionará retos y oportunidades para la biblioteca. La pregunta general que se hace con la última parte subrayada

- Académicos de Humanidades: se reparten por muchos campos, con sus retos (no hay lagunas de interés pero sí de formación cuantitativa y de grupos de trabajo y de modelos de "laboratorio") que proporcionan oportunidades para las bibliotecas (como espacio neutral para STEMS y humanistas, colaborando con bibliotecarios especializados y bibliotecarios de datos con los académicos).

- Dando sentido: tomando elementos de disciplinas externas a las Humanidades y combinando la experiencia temática con los algoritmos que proporciona la tecnología para pasar de mostrar información a entenderla.
Hay varias maneras de dar sentido, de las que menciona dos: buscando por algo que piensas que está ahí o dejando que los datos se organicen por sí mismos.
Nos muestra varios análisis realizados con Bookworm, una herramienta para visualizar tendencias en repositorios de textos digitales.

- Grandes colecciones digitalizadas de materiales culturales: dos aspectos de la minería de datos son el análisis y la presentación. Las oportunidades para bibliotecas son extender el apoyo a la investigación más allá del ciclo de vida, asegurar la preservación y la organización documental para facilitar el libre acceso...

 

 

2. Do we need to believe Data/Tangible or Emotional/Intuition?

La segunda intervención se centraba en la importancia de la emoción y fue presentada por Jean-Luc Marini y Fanjuan Shi dos ponentes que nos desvelaron las claves que están por detrás de los sistemas de Fanjuan Shi delante de 3 fragmentos de sendas diapositivasrecomendación omnipresentes. Esos que hacen aparecer un sofá rojo en la pantalla cuando estás buscando recetas de bacalao o imágenes de salamandras sólo porque un día estuviste mirando precios de sofás de ese color.

Empiezan hablándonos de estudios empíricos sobre la emoción en la toma de decisiones que nos hicieron recordar en Pensar rápido, pensar despacio, a cuyos autores (premios Nobel) mencionaron expresamente. Diferencian las tomas de decisión racional y la intuitiva (no consciente, basada en la experiencia, holística -fundamentada en la libre asociación-, basada esencialmente en la emoción), describen la emoción (considerada por Damasio como el primer factor de decisión) que influye en el juicio que hacemos del mundo tanto en el sentido positivo como negativo.

Quieren establecer después una relación entre emoción y comercio electrónico que busca anticipar las emociones y realizar investigación comercial.

¿Qué es un sistema de recomendación para el comercio electrónico? Para Fanjuan Shi, en esencia, un buen algoritmo. Realiza una descripción de las metodologías de la recomendación (centradas en diferentes cuestiones: demográficas, estadísticas, en la comunidad, el contenido o el conocimiento, correlación basada en el ítem y correlación basada en el usuario) y de cuál es su funcionalidad dentro de unas coordenadas que diferencian entre personalización y generalización y el nivel consciente e inconsciente. En la mayor parte de los casos se combinan varias estrategias. Se mencionan los retos para vendedores e investigadores y se establece la relación entre sistema de recomendación y emoción.

Muchas recomendaciones no sirven y no son interesantes. El propósito real es determinar el right time. Y para conseguirlo es muy importante conocer la conducta de los usuarios así como evaluar la efectividad de la recomendación: nos mostrará gráficos explicando cuándo se considera que la respuesta es buena (y por tanto el algoritmo funciona) y cuándo no y qué significa que los puntos estén ubicados en un lugar u otro de la gráfica, cómo maximizar el sistema híbrido, cómo las recomendaciones propias y las de terceras partes.

Su contribución a este ámbito es Search'XPR que incluye 6 pasos.

Finaliza la presentación con la idea de que confiemos en nuestras emociones mientras dejamos el control a nuestro córtex.

En el turno de preguntas:

  • Es importante entender no sólo el criterio sino la intención. Estos sistemas se harán más y más inteligentes y funcionarán mejor. El feedback honesto de los consumidores es difícil y es preciso filtrarlo. Primero se desea establecer la intención y después cómo llegar a completarlas. Lo más importante es el right now.
  • Se puede condicionar la emoción. Hay una cara buena y otra oscura.
  • Comprar es un proceso de interacción al mismo tiempo que una experiencia de "felicidad". El sistema de recomendación se construye para ayudarte no para manipularte. :-)

 

3. Copyright law and text and data mining: the research community's perspective

La tercera presentación trataba de copyright y minería de textos y datos desde la perspectiva de una comunidad académica (la Helmholtz Association). Diapositiva última

Chirstoph Bruch comenzó con definiciones (dato, información, conocimiento y TDM) que clarificaran su discurso. Considera la ciencia como una empresa abierta (Informe de la Royal Society de junio de 2012) basada en una inteligencia abierta (accesible, evaluadora, inteligible, utilizable). La comunicación que conlleva incluye los datos: es preciso poder acceder a los datos de la investigación para poder reproducir el experimento y entender el significado completo de aquellos.

Hay tecnologías TDM (las ha definido como aquéllas que permiten analizar y extraer nuevas ideas y conocimiento del exponencialmente creciente conjunto de datos digitales, big data) que pueden usarse directa o indirectamente, un incremento de publicaciones y patentes sobre las mismas y sobre todo 4 obstáculos contra el libre TDM: el copyright, la protección de las bases de datos, las obligaciones contractuales y las protecciones técnicas. Algunos países (USA, Canadá, Israel, Japón, Reino Unido) han solventado algunos de ellos obteniendo una ventaja competitiva.

Nos menciona algunas excepciones de las directivas de la Unión Europea (2001/29/EC y 1996/09/EC) y la exigencia de control por parte de la industria de contenidos.

Los investigadores insisten en que ellos no producen copias cuando realizan minería de textos y datos. Y se encuentran con una situación complicada para saber lo que pueden hacer dentro de la legalidad.

Considera que las licencias son el enfoque equivocado implicando costes de transacción, cuestiones de confidencialidad, influyendo en la cadena de creación de valor, la necesidad de pagos, desventajas competitivas entre países).

Finaliza con posibles remedios para cada uno de los obstáculos que previamente había establecido:

  • Excepciones al TDM en el copyright
  • Retractación de la protección de las bases de datos
  • Excepciones inalienables y licencias mandatories en los contratos
  • Derecho a las llaves y a craquear el DRM en el caso de las protecciones tecnológicas

 

Bookmark and Share
Ver todos los posts de: Andoni Calderón Rehecho


Universidad Complutense de Madrid - Ciudad Universitaria - 28040 Madrid - Tel. +34 914520400
[Información - Sugerencias]