Inicio Biblioteca Complutense Catálogo Cisne Colección Digital Complutense

FESABID 2013. Gestionar los datos de la investigación

Andoni Calderón Rehecho 28 de Mayo de 2013 a las 09:07 h

Fernanda Peset coordina la mesa Gestión de datos de la investigación (#fesabid13  #fs17) acompañada por Ricard de la Vega (@rdelavega), Sergio Ruiz, Paz Fernández e Isabel Bernal. Contextualiza la cuestión diciendo que hay una nueva necesidad en ámbitos académicos y de investigación: la de depositar los datos generados en la investigación, en muchos casos impuesta por las agencias financiadoras.

 

Primero interviene Ricard de la Vega, del CESCA, que se encarga de gestionar infraestructuras: no de realizar investigación, sino de soportar la investigación.

Hay grandes máquinas que hacen cálculos. Él trabaja en portales y repositorios, en la banda tecnológica del desarrollo de repositorios. Son una especie de paraguas, punto de encuentro.

Nos presenta la evolución del ámbito de estudio de un astrónomo que ha pasado de "conocer" 1.535 estrellas en 1989 a 100.000 en 1995 y que con el proyecto Gaia 2013 llegará a mil millones [una vez más se reproduce el problema del falso amigo: billion no es un billón] de objetos que ocupan muchos teraflops con mapa de estrellas en 3D.

Menciona Genius (Gaian European Network for Improved Data User Services) un proyecto FP7 con el que se pueden hacer simulaciones. Es importante, ya que los big data tienen implicaciones de velocidad, volumen y variedad.

Hadoop cubre un 7% de Science Data. Hay pocos proyectos de datos muy grandes, lo que no significa que la infraestructura sea grande (ej. Worldwide Protein Data Bank Archive).

Su gestión, preservación y difusión son más complejas que las publicaciones. Hay costes elevados de adquisición y mantenimiento de infraestructuras, necesidad de financiación a largo plazo y de un plan de gestión de datos. Además hay que evitar el síndrome de Diógenes, seleccionando los datos.

 

Sergio Ruiz habla de ODIN (ORCID y DataCite Interoperability Network). Primero asegura que la gestión de los datos puede ser cara; pero es mucho más caro regenerar los datos de la investigación.

ODIN es un proyecto europeo de 2 años dentro del 7º Programa Marco en el que intervienen 3 socios no europeos (2 estadounidenses y uno australiano), agrupando a ORCID, DataCite, BL, CERN, Dryad, arXiv y ANDS cuyo objetivo es identificar de manera única a científicos y datasets y conectarlos con distintos servicios e infraestructuras dedicados a la comunicación científica. Y que después pueda contar para las carreras académicas no sólo las citas sino quién está compartiendo datos.

Hay casi 2 millones de DOIs creados, se está en la versión 3 del esquema de metadatos, se ha incrementado muchísimo últimamente la cita a los datos de la investigación. España está un poco retrasada, al mismo tiempo que se trata de un tren que no podemos dejar  escapar, que interesa a multitud de sectores / audiencias, entre ellos a investigadores y bibliotecarios.

 

Paz Fernández de la Biblioteca de la Fundación Juan March nos habla de las gestión de datos en el CEACS (Centro de Estudios Avanzados en Ciencias Sociales) y la experiencia del Australian National Data Service (ANDS) donde se encuentra ahora mismo Luis Martínez Uribe, que según ella es el único bibliotecario de datos en España.

Los datos se buscan, se tramitan, se adquieren, se catalogan... Se generan nuevos conjuntos de datos, que hay que "curar" y después difundir. Nos proporciona la dirección de la biblioteca de datos y nos menciona algunas de las cuestiones asociadas con ella, como los problemas de licencias, usos restringidos... La figura del embedded librarian, se le llame como fuera, es necesaria. Si no está desarrollada en las bibliotecas es difícil que los investigadores se fíen de nosotros.

También nos enlaza con el repositorio de datos científicos Dataverse cuyo objetivo es difundir los archivos de datos, su posibilidad de replicación y su participación en el movimiento de acceso abierto.

Habla después del Australian National Data Service (ANDS), un proyecto nacional que está financiado con unos 55 millones de euros al año y que pretende que los investigadores cuenten con datos de alta calidad que puedan ser reutilizarlos, pasando de una situación en la que se cuenta con datos inmanejables, desconectados, invisibles y de uso particular a colecciones de datos estructuradas que sean manejables, estén conectadas, puedan ser encontradas y reutilizadas. Tienen 8 ejes de trabajo y contienen casi 55.000 colecciones de datos generadas por investigadores australianos: Research Data Australia
Proporcionó otra URL; pero no recuerdo por qué/para qué: http://www.redmap.org.au

 

Fernanda Peset nos habla de las líneas de trabajo abiertas en Datasea: datos abiertos de investigación un mar de datos:  ODiSEA inventario internacional de bancos de datos/repositorios; una encuesta dirigida a investigadores que se realizará en breve y un estudio de las políticas de editoriales. Por otro lado, los estudios de caso españoles los llevan a cabo ellas [¿Se refiere también a Antonia Ferrer?]. Hay poco, pero hay.

 

En último lugar intervino Isabel Bernal, que nos habló de las acciones del CSIC y de las conclusiones del informe preliminar de Recolecta. Cree que en lugar de deprimirnos por la situación en que nos encontramos lo que hay que hacer es poner los cimientos sobre los que asentarse, con un enfoque posibilista y práctico. Hay muchos investigadores acumulando datos puros y dispuestos; otra cuestión es que nosotros estemos informados de ello. Resalta la cuestión de los datos puros, ya que no siempre se trata de big data.

En el CSIC han creado un dataset en el repositorio institucional: Digital CSIC. En su caso fueron los investigadores los que llamaron a la puerta y en el 2010 comenzaron a estudiar si podían dar salida a este tipo de documentación. Hacen gestiones de copyright, ayudan a cumplir mandatos. Por otra parte los editores de revistas tienen una postura muy abierta para la apertura de datos, en algunos casos exigiendo que se ponga en abierto el dataset antes de publicar el artículo.

Desde 2011 ha dado formación en gestión y difusión de datos a investigadores y a la comunidad bibliotecaria.

Están utilizando el repositorio como almacenamiento de los datasets y han diseñado una página web (Global SPEI database) que sirve como interfaz para buscar, localizar...

 

Algunas conclusiones del Informe FECyT:

  • Necesitamos un cambio cultural que permita que se den cuenta del valor que tiene
  • Hay muchos tipos de datos diferentes que precisan distinta gestión
  • Cómo difundir las bases de datos
  • A lo mejor las bibliotecas no tenemos los conocimientos necesarios: ¿conocemos cada una de las herramientas que utilizan para crear los datos? Seguramente no.

 

Hace reflexiones sobre cuestiones relevantes:

  • La necesidad de contar con métricas de datos
  • DOI frente a handles: parece que hay presión a favor del DOI (que cuesta dinero). Si sólo se cita con DOI...
  • ¿Dónde subirán los datos? ¿En repositorios institucionales? ¿Repositorio temático internacional?
  • Sistema nacional de gestión y difusión de datos en abierto es necesario. ¿Supone un coste enorme? Pues habrá que ir haciendo cosas a nivel micro.

 

Fernanda Peset pregunta por los valores de un documentalista. ¿Dónde estamos? ¿Qué hacer?

  • Paz: da igual cómo lo llamemos. Debe tener empatía con los investigadores, conocer el proceso de investigación, habilidad para publicitación programada y segmentada (su bibliotecario de datos es matemático con máster en computación), para "masajear" grandes cantidades de datos, cultura de compartir y reutilizar datos de investigadores, en curación (inversión en formarles) y también es preciso un proyecto estratégico y coordinado a nivel nacional.
  • Sergio no está tan de acuerdo en que sea necesario que el bibliotecario sea el que deba dar todo el rango de servicios o cumplir con todo el perfil
  • Ricard: son necesarios equipos multidisciplinares hablando un idioma entendible. Cada investigador, campo y disciplina son diferentes. El bibliotecario de datos no debe dejar ese espacio. Conversión de formatos, datasets, citas, derechos de autor...

 

Desde el público Virginia Ortiz Repiso dice que los bibliotecarios están reinventándose continuamente. Ya hay muchas tesis sobre LOD, content curator... El proceso para incorporarlo en los planes de estudio es muy largo ya que debe ser aceptado por los evaluadores. Por tanto, hay que introducirlo de alguna manera dentro de los planes existentes. Luego van a discutir algunas de estas cosas en otro de los paneles (#fs28).

 

Desde el público Javier Fernández (@fhersanmi) dice que en el CRIS [¿Qué es un CRIS?] interviene mucha gente de diferentes procedencias. Es algo que nos va a estallar en la cara.

Isabel Bernal asegura que es fácil emitir un mandato; pero si no va a acompañado de una guía, de instrucciones, procedimientos... resulta realmente complicado saber cómo llevarlo a cabo.

Bookmark and Share
Ver todos los posts de: Andoni Calderón Rehecho


Universidad Complutense de Madrid - Ciudad Universitaria - 28040 Madrid - Tel. +34 914520400
[Información - Sugerencias]