viernes, abril 11, 2014

La nueva bibliometría: nuevos horizontes, nuevas oportunidades, nuevos peligros. Vino viejo en odre nuevo

Acaba de ver la luz en la revista de divulgación científica Investigación y Ciencia (abril de 2014, nº 451) un breve artículo titulado  Riesgos de la nueva bibliometría,   donde, al albur de nuestros últimos experimentos con Google Scholar, se resumen las fortalezas y debilidades de las nuevas e ignotas herramientas bibliométricas.
 La nueva bibliometría, nacida al calor del lanzamiento de los productos híbridos de Google (Google Scholar Citations en 2011 y Google Scholar Metrics en 2012) y de la extensión de la web 2.0 con todo su enjambre de nuevos medios de comunicación (Blogs, Twitter, Facebook, ResearchGate, Academia.Edu, LinkedIn,) y de nuevos almacenes de información bibliográfica (Mendeley, Citeulike)  y científica (repositorios institucionales y temáticos), está en plena fase de ebullición. Nueva fuentes, nuevas herramientas, nuevos indicadores métricos.
Búsquedas sobre Bibliometrics y Altmetrics según Google Trends

Si la antigua bibliometría, basada en la galaxia Gutemberg, medía la producción y el impacto de los documentos impresos predominantemente mediante el recuento de publicaciones y citas bibliográficas de los artículos publicados en revistas o congresos indizados en las bases de datos de referencia internacional (ISI-W0S) y con el factor de impacto como patrón oro de la medición; la nueva bibliometría utiliza todo lo que se produce y consume en la galaxia web, en el sentido más amplio del término. Los documentos, almacenados en la web, pueden ser visitados, visualizados, descargados, enlazados, citados, compartidos, reseñados, mencionados, comentados, discutidos, referenciados,  etiquetados, valorados, seguidos, difundidos. La huella digital es amplia y no se circunscribe solo a los documentos científicos sino a todas las actividades e interacciones sociales que los científicos, como cualquier usuario y ciudadano de la red, puede desplegar en su vida cotidiana. 
En definitiva, todo se puede contabilizar y todo se cuantifica, y se hace aún sin saber qué se está midiendo. Estamos en momento de más preguntas que respuestas ¿qué son estas nuevas acciones científicas? ¿qué significan exactamente? ¿qué cubren las nuevas fuentes? ¿cómo se construyen las herramientas?

No tenemos respuestas a estas preguntas, desconocemos de momento qué hay detrás de la nueva bibliometría. Si acaso podemos columbrar tres graves peligros  que la amenazan como espada de Damócles: 
la facilidad con que pueden ser manipulados
la fugacidad de los resultados y las medidas, en muchos casos difíciles de reproducir de manera estable
así como la dependencia tecnológica de compañías que elaboran herramientas que aparecen y desaparecen en el mercado cual producto de consumo.
Lo que sí sabemos con toda certidumbre es que la nueva bibliometría se cimenta en la vieja bibliometría que ya definía el maestro López Piñero como la disciplina encargada de generar indicadores bibliométricos que no son otra cosa más que “datos numéricos sobre fenómenos sociales de la actividad científica relativos a la producción, transmisión y consumo de la información en comunidades determinadas”.  Los problemas de la nueva bibliometría son los viejos problemas de la bibliometría:  ¿cómo medir los resultados de la investigación? ¿cómo medir su originalidad, relevancia, impacto? ¿cómo saber e interpretar lo que realmente medimos? ¿Qué fiabilidad, validez y representatividad poseen las fuentes, herramientas e indicadores empleados?
En fin vino viejo en odre nuevo. Claro que el nuevo recipiente puede condicionarlo. Al igual que las barricas determinan el sabor del vino, la web y sus derivados pueden determinar  su orientación, sentido y prestaciones.

Emilio Delgado López-Cózar
Huétor Vega, 11 de abril de 2014

jueves, marzo 13, 2014

H Index Scholar: el índice H de los profesores universitarios españoles de Humanidades y Ciencias Sociales, revisado y ampliado

Con este post queremos anunciaros que la web con el índice h de los profesores universitarios españoles de Humanidades y Ciencias Socialess está nuevamente operativa, tras un largo y oneroso proceso de revisión
-      

 -        ¿En qué ha consistido la revisión?

Dada la envergadura de la empresa a la que nos enfrentábamos, identificar el índice h de más de 40.000 profesores de universidades públicas españolas, y a que era la primera vez que se abordaba la medición masiva del rendimiento académico de unas comunidades científicas tan amplias y tan poco conocidas a estos efectos como son las áreas humanísticas y sociales asumíamos la presencia de errores, y, más teniendo en cuenta que Google Scholar  no ejerce ningún control ni normalización sobre las fuentes que procesa. Las dificultades se acrecientan dada la complejidad de las búsquedas bibliográficas por nombres de persona que llevan asociadas numerosos problemas (homonimias, diferentes variantes de firma...).

En la publicación de la versión beta de H Index Scholar en junio de 2013 solicitábamos encarecidamente la colaboración de los propios científicos para solventar las posibles erratas cometidas y para ello diseñamos un formulario que pudiera facilitar dichas tareas.
 
Pues bien tenemos que agradecer públicamente la buena acogida que tuvo nuestra petición. Hemos recibido numerosos mensajes tanto de bibliotecarios, que generosamente han contribuido a nuestro índice aportando listados de profesores adscritos a departamentos que habían quedado excluidos por no figurar dicha información en las web universitarias, como de profesores que nos han comunicado diversas incidencias (omisiones, inconsistencias en los nombres, cálculos inexactos en sus índices, equivocada adscripción a área de conocimiento). 

Resultado de todo este trabajo ha sido una mejora sustancial del índice, en los siguientes aspectos
a) Nuevas incorporaciones de profesores: 749 .
b) Adscripción a área de conocimiento de  1750 profesores
c) Revisión de índice H de unos 500 profesores
d) Eliminación de 60 profesores ya jubilados y la corrección de una gran cantidad de duplicaciones debido a variantes de nombres, profesores no funcionarios adscritos a varias universidades, etc.

¿Qué información contiene H Index Scholar 2012?

Muestra el índice h de 15.000 profesores de universidades públicas españolas, aunque se ha calculado el de más de 40.000, que son los profesores que conforman las áreas de conocimiento de Humanidades y Ciencias Sociales en España.

Queremos recalcar que los índices bibliométricos mostrados no representan los que actualmente posean los investigadores: Son los correspondientes al año 2012, y en concreto, a la fecha en la que se realizaron las búsquedas en Google Scholar (información que figura en el listado de cada área de conocimiento)

¿Cuál es la finalidad de H Index Scholar?

Quisiera subrayar el carácter experimental del mismo, dejando claros cuales son los objetivos que pretende cubrir:

1.              Comprobar la capacidad de Google Scholar para recuperar la producción científica y académica de científicos adscritos a los ámbitos de Humanidades y Ciencias Sociales, invisibles a las tradicionales bases de datos por sus peculiares hábitos de publicación.
2.              Examinar su idoneidad para identificar la producción de entornos geográficos nacionales distintos al mundo anglosajón y que usan  lenguas de expresión distintas al inglés
3.              Determinar la fiabilidad y validez de los índices h y g basados en información suministrada por Google Scholar para detectar el núcleo de académicos de mayor influencia en las distintas disciplinas humanísticas y sociales

El carácter experimental de esta acción se dirige asimismo a comprobar el grado de aceptación de productos de esta naturaleza en una comunidad académica, como es la de los profesores de los campos humanísticos y sociales, tan alejada de ejercicios y prácticas bibliométricas de este tenor. 

Asimismo, anunciamos la publicación en la revista El Profesional de la Información de un artículo donde se explica pormenorizadamente cuales son los objetivos, la metodología y los principales resultados de H Index Scholar (versión junio 2013).
 

Esta es la referencia y si pincháis podéis acceder al texto completo

Una recomendación final: hágase su perfil en Google Scholar Citations

Y, por último, nos atrevemos a proponeros unas sugerencias que nos ayudarán muchísimo en futuras actualizaciones, en las que ya estamos pensando. Háganse su perfil en Google Scholar Citations. Nos queremos dirigir especialmente a los bibliotecaros universitarios para que animen a sus usuarios a que lo hagan. Contribuirán decisivamente.  con ello mejorará su visibilidad, y puede ser que su impacto venidero.

En esta presentación explicamos, sobre todo a partir de la diapositiva 40, lo fácil que es confeccionar el perfil


miércoles, febrero 26, 2014

A vueltas con la publicación de “papers” falsos: las pesquisas de Cyril Labbé en congresos del IEEE y Springer

Ayer Nature publicaba una noticia redactada por Richard Van Noorden sobre la publicación en Congresos auspiciados por las todopoderosas y prestigiosas editoriales científicas Springer y el Institute of Electrical and Electronic Engineers (IEEE) de artículos falsos creados automáticamente con el programa SCIgenPublishers withdraw more than 120 gibberish papers.
Os recordamos que este programa fue creado en 2005 por tres estudiantes graduados en el grupo  PDOSresearchgroup del MIT (Jeremy Stribling, Max Krohn, Dan Aguayo). Permitía generar automáticamente papers inventados pero siguiendo una pulcra redacción y ateníéndose estrictamente al formato científico. En defintiva, papers formalmente irreprochables.
El detective de las no menos de 120 comunicaciones fabricadas, ha sido Cyril Labbé, un investigador francés que creó el “antiScigen”, un programa capaz de detectar artículos fabricados con el software norteamericano. Parece ser que el amigo Cyril, emulando al inspector Gadget, se ha dedicado a rastrear publicaciones que hayan empleado SCIgen para fabricar papers. Los resultados de estas pesquisas son relatados en la noticia de la que me hago eco en este post.
Cyril no sólo ha hecho esto sino que se inventó al autor más citado de la historia Ike Antkare  y nos enseñó a otros a como hacerlo: publicando automáticamente muchos papers con SCIgen que se autocitaban desmedidamente. 

Nuestra investigación de manipulación de GoogleScholar entronca directamente con este trabajo: la diferencia es que nosotros lo hicimos como lo hacen los analfabetos informáticos: sin programa automático, cortando y pegando textos, traduciendo con el Google Translate y subiéndolos directamente a una página web con el propósito de manipular los indicadores bibliométricos de Google Scholar Citations y Google Scholar Metrics. De la forma más burda, grosera y elemental que se nos ocurrió y utilizando un nombre de autor más que llamativo para dar pistas del engaño. Tratamos no de generar un autor ficticio sostenido sobre citas ficticias, sino que manipulamos los indicadores bibliométricos de científicos concretos (los autores del experimento así como las personas con las que colaboraron), y, de rebote, las revistas en las que se publicaron. Por tanto, fue una manipulación real, demostrando como es obvio en este nuevo mundo de Internet, además, que se puede manipular lo propio y lo ajeno. 

Como no podía ser de otra manera, pues es un mecanismo fundamental en la ciencia, están surgiendo imitadores de estos trabajos de manipulación iniciados por Labbé y seguidos por nuestro equipo. La replicación es básica en la ciencia. Véase el caso de este trabajo con el sugerente título "Gaming the Google Scholar citation system" y cuyo contenido no se compadece con él. El texto está alojado en las páginas de una universidad noruega (Norges Teknisk-Naturvitenskapelige Universitet), que no ha podido evitar, lógicamente, los escarceos publicísticos de alguno de sus estudiantes
O del perfil de Google Scholar Citations creado por un autor más falso que Judas llamado Lueca de Mutatio, supuesto estudiante de master en Oxford. Un ejemplo, que demuestra como en Google scholar Citations podemos crear perfiles como churros: con los nombres de autor que se nos ocurran, con las palabras clave que nos apetezcan y atribuyéndonos los trabajos que nos plazcan, hasta crear un engendro como el de Lueca de Mutatio. Ya sé que pensaréis, que menuda tontería hacer esto con uno mismo de forma tan grosera. Pero puede haber personas que apliquen la ingeniería fina a su perfil y lo inflen como el merengue de un pastel. La principal virtud de Google Scholar Citations es que resulta muy moldeable según nuestro gusto; pero ahí radica su principal defecto: podemos cocinar el pastel que queramos.
Lo importante de la historia que relató ayer Nature y todas las actuaciones aquí glosadas es que da igual que los papers se sometan a un mundo controlado (editoriales y revistas de prestigio y con contrastados sistemas de revisión por pares) que entornos más o menos controlados como demostró Bohannon, o abiertamente incontrolados (páginas web, repositorios, etc….) como es el mundo Google. Debo reafirmarme en lo que yareproduje en una entrada anterior de este blog 

“Ya sostuve en 2006 respecto al PEER REVIEW como sistema de evaluación y detección del fraude: no existen medios infalibles que puedan impedir que el fraude se produzca, ni la publicación por si sola es un sello que garantice la fiabilidad y validez de una investigación, ni el sistema de evaluación por expertos empleado es capaz de detectarlo y neutralizarlo. Básicamente por dos razones. En primer lugar, porque el edificio científico se asienta sobre un pilar axiomático que es falseable: se basa en la buena voluntad de los científicos; la honestidad se presupone; es inconcebible que un científico premeditadamente esté dispuesto a mentir. Por consiguiente, si un científico quiere mentir mentirá. Y como no cabe en la mente de la comunidad científica que esto ocurra la guardia estará permanentemente bajada. En segundo lugar, porque el sistema de alerta que emplea la ciencia para contrastar la verosimilitud y veracidad de un descubrimiento se aplica en muy pocos casos. La replicación y contrastación de la investigación por otros científicos, que es la auténtica máquina de la verdad de la ciencia, es impracticable dado el volumen actual que ha adquirido la ciencia. 


Debe quedar claro que el arbitraje científico no sólo no es capaz de detectar el fraude sino que ni siquiera puede garantizar la fiabilidad y validez de los resultados. Muchas son las experiencias que han evidenciado la verdad de esta afirmación (Darsee, Slutsky, Schön...), muchos los experimentos que han demostrado la inoperancia del sistema (Jurdant, 2003 ; Peters & Ceci,  1982 ;  Epstein, 1990, Campanario, 1995, 2002) y muchas más las investigaciones que han puesto al descubierto los defectos del arbitraje científico que  (Armstrong, 1997)".

Aún así es mejor, como en el fútbol, jugar con ciertas reglas y con árbitros que las interpreten. Y eso sí, insuflemos moral y ética científica a todos los jugadores, e incluso, a los espectadores que contemplan el partido. 

Emilio Delgado López-Cózar
Huétor Vega, 26 de febrero de 2014

lunes, febrero 17, 2014

Proyecto del Elsevier Bibliometric Research Program sobre el análisis de las co-descargas para visualizar la investigación interdisciplinar

image

Amigos de la bibliometría, aunque esta entrada llega con bastante retraso, quisiéramos informaros de la nueva línea de investigación en la que nos hemos embarcado recientemente con la concesión del proyecto ‘Viability of co-downloading analysis data for mapping interdisciplinary research at institutional level’ en el que participamos Daniel Torres, Nicolás Robinson y Evaristo Jiménez.

Este proyecto se enmarca dentro de la convocatoria de 2013 del Elsevier Bibliometric Research Program (EBRP) y del que esperamos poder enseñaros resultados en los próximos meses. En nuestro caso, nuestro proyecto pretende profundizar en el concepto de co-descarga y su utilización de cara a la construcción de mapas de la ciencia a nivel institucional. Nuestro objetivo es analizar la posibilidad de utilizar estos mapas para detectar la interdisciplinariedad entre disciplinas científicas. Asimismo, ahondar en las posibilidades que pueden ofrecer estas herramientas de cara a la toma de decisiones en política científica. Aquí tenéis el resumen de la propuesta que aparece en la web del EBRP:
“This study focuses on two issue : (1) What do usage (full article downloads)-based indicators measure?’ and (2) The creation and assessment of subject classification systems of scientific-scholarly research that account for multi-disciplinarily. The hypothesis of this study is that an analogy could be established with the relationship between articles tracked by co-citation in the same way that there is a relationship between two closely downloaded articles. By extending the co-citation analysis approach to downloads, this study deepens the concept of co-download analysis as a mean of creating scientific maps similar to those developed through co-citation. The development of such maps would allow a better understanding of the relationships between disciplines as well as compare them with citations.”
Aquí os dejamos uno de los mapas preliminares que vamos sacando. En este caso de la Universidad de Granada a través de la Co-descargas (Co-downloads) en Science-Direct en 2012. Los colores representan grandes áreas, los nodos subdisciplinas, el tamaño e número de descargas totales de la subdisciplina y las líneas las co-descargas comunes.

Figura 1. Mapeando a la UGR a través de las co-descargas de artículos científicas en la plataforma Science Direct de Elsevier

martes, febrero 11, 2014

Alberto Martín Martín defiende su tesina fin de master

En el día da ayer Alberto Martín defendió con sumo éxito su tesis fin de máster titulada “Diseño e implementación de una Master List de revistas científicas a partir de Ulrich’s, Web of Science y Scopus”. El tribunal puso de manifiesto lo desmedido del trabajo, absolutamente impropio de un trabajo académico de esta naturaleza, y valoró el gran esfuerzo y la competencia científica y tecnológica desplegada por Alberto. Como director del trabajo, así lo corroboro: espero que este sea el primer hito de una carrera científica llena de éxitos.


El principal desafío del trabajo era de orden técnico. Manejar más de 700.000 registros bibliográficos provenientes de tres fuentes distintas y conseguir vincularlos e integrarlos suponía un reto de considerables proporciones. Alberto, ha sido capaz de resolverlo.


Aparte de este logro, la tesina arroja importantes resultados sobre otras cuestiones de no menor importancia, que esperamos traducir próximamente en publicaciones. Me refiero a: 
  • El  todavía deficiente control bibliográfico de las revistas en las bases de datos, a pesar de la mejora en las herramientas informáticas. El hecho de que el ISSN-L, identificador creado por la agencia internacional del ISSN para controlar todas las variantes de ISSN que puede tener una revista, no encuentre todos los ISSN empleados en Ulrich’s (8,5%), Scopus (4,1%) y WOS/JCR (1,1%)  es un dato demoledor. Al igual de que el 30% de los títulos en las tres bases de datos de revistas no concuerden milimétricamente.
  • El análisis comparativo de la cobertura de las bases de datos: lingüística, geográfica, editorial (organismos editores), y temática. Un clásico ya en la literatura, pero la primera vez que se comparan simultáneamente todos estos sistemas enfrentándolos  con Ulrich`s
  • El estudio de los sistemas clasificatorios empleados por las bases de datos y sus distintos criterios a la hora clasificar las revistas.

En fín, enhorabuena, y prepárate: acabas de empezar...ahora llega lo duro y lo realmente estimulante....

En Huétor Vega, a 11 de febrero de 2014
Emilio Delgado López-Cózar

viernes, enero 03, 2014

Google Scholar: presente y futuro, fortalezas y debilidades, reportaje de John Bohannon en Science


John Bohannon, que el mes de octubre pasado publicó en Science su impactante experimento sobre el deficiente control y evaluación de los trabajos publicados en muchas revistas Open Access denunciando la estafa que suponen los "predators journals", ha centrado ahora su atención en Google Scholar. Esta semana la revista Science publica un reportaje suyo sobre Google Scholar, donde delinea sintéticamente su presente y futuro, y desvela sus fortalezas y debilidades. Dedica un amplio comentario a nuestro experimento,  (The Google Scholar Experiment: how to index false papers and manipulate bibliometric indicators) que vió la luz en el Journal of the American Society for Information Science and Technology, del que, a su vez, se hizo eco la revista Science en diciembre). En nuestro experimento, que guarda muchas similitudes con el que Bohannon aplicó a las revistas Open Acces,  alertábamos de lo fácil que es manipular las nuevas herramientas bibliométricas patrocinadas por Google (Google Scholar Citations & Google Scholar Metrics) y de los peligros que estas prácticas pueden acarrear para el sistema de comunicación y evaluación científica.


El reportaje, con un estilo menos cáustico del habitual en Bohannon, y que lleva un insinuante título  Google Scholar Wins Raves—But Can It Be Trusted? nos traslada interesantes mensajes:


En primer lugar, constata el éxito de Google Scholar como fuente de información científica: viene a reconocer la preeminencia de Google Scholar como el principal medio que usan los científicos, y todos los sectores de la sociedad, para buscar información bibliográfica de naturaleza científica. Los estudios empíricos que se vienen realizando reiteradamente señalaban cómo Google y Google Scholar se había convertido en la puerta de entrada a la búsqueda de información científica. Y creo yo que no solo en la puerta de entrada, sino en la de estancia y salida. Esta es una evidencia que conocen muy bien en las bibliotecas, donde saben que buena parte del tráfico entrante de Internet se realiza a partir de Google Family. (http://www.slideshare.net/torressalinas/cmo-utilizar-google-scholar-para-mejorar-la-visibilidad).

Pero es que además Google Scholar se está erigiendo en la fuente que regula el tráfico a todas las web que contienen información científica; me refiero a las bases de datos (Web of Science, Scopus), a las web de editoriales y plataformas de edición científica, especialmente las de revistas (Elsevier, Springer, HighWire…), y a todos los productos informativos alojados en las páginas web de universidades y centros de investigación.
Motores de búsqueda empleados para acceder a IN-RECS 
Sitios web de referencia empleados para acceder a EC3noticias 
Este éxito se debe ante todo a su magnífico comportamiento en la búsqueda de información científica: simple, sencillo y fácil de usar, con un diseño a imagen y semejanza del buscador general de Google, busca documentos en cualquier país o lengua en que se produzcan con una rapidez inusitada,  siempre con resultados bastante pertinentes. Y todo ello de forma GRATUITA. Pero también, se debe a nuevas prestaciones cono la facilidad de generar alertas informativas sobre temas, autores o revistas o a la innovadora prestación de recibir actualizaciones automáticas de documentos relevantes a nuestros intereses académicos. Aunque sólo para aquellos que dispongan de un perfil en Google Scholar Citations, por medio de algoritmos que analizan todas las palabras que usamos en nuestros trabajos y los coautores de los mismos, así como los flujos de citas entre artículos y revistas, Google Scholar nos ofrecerá documentos adecuados a nuestras necesidades científicas, cada vez que el robot encuentre algo pertinente para nosotros. 
Lista de documentos sugeridos automáticamente por Google Scholar
En segundo lugar, parece despejar los insistentes rumores de que Google podría cerrar Google Scholar y sus derivados. Desde luego, esperemos que no sea así. Las palabras de Anurag Acharya, su diseñador y principal sostén, parecen desmentirlo. Aunque de Google nunca nos podemos fiar (todavía está fresca en nuestra memoria la retirada de Google Docs) creo que hay dos hechos que nos hacen pensar que esto no va a ocurrir. El uso tan importante que están teniendo estas herramientas y que Google conoce muy bien y no quiere revelar. No olvidemos, por otra parte, que a través de los Perfiles de Google Scholar Citations, la compañía está adquiriendo información vital sobre los propios científicos (registro pormenorizado de su navegar diario), obteniendo, además, la colaboración gratuita en el mantenimiento y normalización de los registros de su base de datos. Y de otro lado, el acuerdo reciente con Thomson Reuters para enlazar sus respectivos productos no presagia que Google esté pensando en cerrar la Family Scholar.

En tercer lugar, destaca la bondad de la competencia con Microsoft Academic Search y los productos tradicionales elaborados por Thomson Reuters y Elsevier. Desde luego que no hay nada mejor que la existencia de diversos productos para evitar monopolios indeseados. Pero lamento decir que ahora mismo no hay competencia: el producto de Microsof tiene un excelente diseño y ofrece unas prestaciones  portentosas, pero su base de datos es lamentable en términos de cobertura. Una casa no se puede construir sobre cimientos de barro. Y respecto al consagrado JCR de Thomson Reuters, o al más reciente SJR, derivado de Scopus, GSM y GSC no son todavía una seria competencia pues ni ofrecen las prestaciones de  las herramientas bibliométricas clásicas (variedad de indicadores, diversidad de opciones de ordenación y visualización de datos, descarga y tratamiento) ni la transparencia en la selección de fuentes y procesamiento de datos (Ranking journals: could Google Scholar Metrics be an alternative to Journal Citation Reports and Scimago Journal Rank?Google Scholar Metrics: an unreliable tool forassessing scientific journals).

Y dejo para el final, la alusión a los problemas de manipulación que pueden sufrir los productos de Google (Google Scholar Citations & Google Scholar Metrics) y la cita de nuestro experimento, que demuestra lo fácil y sencillo que puede ser para cualquier persona con mínimos conocimientos informáticos manipular los productos que nos ofrece Google Scholar.

Anurag Acharya, minimiza el problema y lo reduce a una mera cuestión de "spam", que cuantitativamente hablando es irrelevante. Y por ello considera que las críticas son desproporcionadas y están exagerando este asunto. Confía en que la comunidad científica es capaz por sí sola de detectar las manipulaciones y castigar a los tramposos. No obstante, advierte que si el problema fuera a más, Google se podría plantear diseñar filtros que pudieran controlarlo. Y, por último, niega cualquier posibilidad de dar a conocer públicamente el algoritmo en el que se basa Google Scholar y sus productos derivados.

No me satisface en nada esta contestación, pues reducir la posibilidad de manipular las nuevas herramientas a un simple dilema informático significa no entender el problema de fondo. Desde el momento que Google lanzó Google Scholar Citations  y Google Scholar Metrics ya no podemos hablar de buscadores de información científica sin más. Google debe ser consciente que ha diseñado sistemas de información que ofrecen indicadores bibliométricos de científicos y de revistas y que, por ello pueden ser empleados para juzgar, analizar, evaluar el rendimiento de los unos y de las otras . Por tanto, es responsabilidad de "la compañía" como lo es de Thomson Reuters con sus JCR o Scopus con sus herramientas de análisis bibliométrico, ofrecer productos fiables, válidos y, si no invulnerables a la manipulación (esos no existen), sí, al menos, con procedimientos para detectar y sancionar a los que los manipulan. 

No estamos pidiendo que Google haga público su algoritmo, sino que diseñe Google Scholar Citations y Metrics de manera que se ofrezca información sintética sobre aspectos tan concretos como la tasa de autocitación de autores y revistas así como la procedencia de las citas (dominios, tipos de documentos, autores, instituciones...). Sólo así los usuarios de estos magníficos productos de Google podrán detectar si alguien hace trampa y, en caso de ello, tomar medidas. Modestamente en IN-RECS (Índice de Impacto de las Revistas Científicas de Ciencias Sociales), diseñado con ínfimos recursos financieros e informáticos, podría servirle de ejemplo ¿Qué podría hacer Google? una simple sugerencia: que copie y pegue.
Tasas de autocitación y autoreferenciación de revistas en IN-RECS

Información de procedencia de las citas de una revista en IN-RECS
Información de los autores, instituciones, revistas y años con los que publica, cita y es citado un autor en IN-RECS así como su perfil bibliométrico comparado con la disciplina en la que trabaja 
Google debe saber que la falta de control de estos productos, su principal talón de Aquiles puede tener consecuencias imprevisibles. Indizando automáticamente cualquier documento colgado por un autor en la red académica Google está dinamitando todos los controles previos que exige el método científico para certificar el conocimiento: la aplicación metódica del sistema de evaluación por pares a todos los trabajos sometidos a publicación en las revistas así como los filtros científicos y técnicos ejercidos por las bases de datos que las indizan vienen a ser un tamiz que si no impide si, al menos dificulta, la fabricación de publicaciones o la manipulación de citas a granel.

Los peligros son reales ya que a los científicos se nos juzga hoy por lo que publicamos y por su rentabilidad en términos de citas. Si con los filtros actuales muchos más autores o editores de lo que quisiéramos están manipulando publicaciones y citaciones ¿Qué ocurrirá sin controles previos? No lo sabemos pero es fácil imaginárselo.

 
Si el fraude no se puede eliminar, si al menos prevenir o dificultar: pedimos que los índices de citas, y especialmente los promovidos por Google, se diseñen de forma transparente para que puedan desenmascarar a los tramposos.
Emilio Delgado López-Cózar
Granada 3 de enero de 2014

miércoles, diciembre 11, 2013

Análisis de cobertura del BKCI publicado en Online Information Review

Seguimos anunciando nuevos trabajos con la publicación reciente del primer análisis que realizamos del Book Citation Index y que ya reseñamos en su momento en nuestra Book Citation Index Series junto con el resto de análisis que habíamos hecho de esta base de datos. En este trabajo nos centramos en la cobertura editorial, temática e idiomática de la base de datos, centrándonos en el nivel de especialización de las editoriales así como las principales limitaciones técnicas y conceptuales de la base de datos.

FIGURE 3 Field Normalization Citation Score and Concentration Index according to the Book Citation Index. 2005-2012 (Fig. 3 de Torres-Salinas et al. 2013)

Referencia

Torres-Salinas, D., Robinson-García, N., Campanario, J.M. & Delgado López-Cózar, E. (2013). Coverage, specialization and impact of scientific publishers in the Book Citation Index. Online Information Review, 38(1)

LEE EL TEXTO COMPLETO AQUÍ

viernes, diciembre 06, 2013

Science Communication: Flawed citation indexing

Cover image expansion
Acabamos de publicar en el último número de Science una carta en la que alertamos a la comunidad de la que consideramos la principal debibilidad de Google Scholar de cara a su uso con fines bibliométricos y de evaluación: la facilidad con la que puede ser manipulado. Para ello, reseñamos nuestro trabajo recientemente publicado en JASIST:
Delgado López-Cózar, E., Robinson-García, N & Torres-Salinas, D. The Google Scholar Experiment: How to index false papers and manipulate bibliometric indicators. Journal of the American Society for Information Science and Technology. doi:10.1002/asi.23056 Disponible en OA aquí: http://arxiv.org/ftp/arxiv/papers/1309/1309.2413.pdf
En él describimos cómo cualquiera y sin ningún tipo de conocimientos informáticos puede manipular los indicadores bibliométricos ofrecidos por Google Scholar de manera sencilla, simple y eficaz y se basa en la información ofrecida en un working paper anterior. Para ello modificamos el perfil de 47 investigadores y 52 revistas generando más de 700 citas falsas de un investigador inexistente.


Delgado López-Cózar, E., Robinson-García, N. & Torres-Salinas, D. Science Communication: Flawed Citation Indexing. Science, 342(6163), 1169. doi:10.1126/science.342.6163.1169-b.

jueves, noviembre 28, 2013

Egociencia: gestión de la reputación on-line para científicos

Amigos:

os dejamos la última presentación del Grupo EC3. Esta vez titulada Egociencia: Reputación On-Line para Científicos que hemos presentado en el CITES II de la UNIR. Esperamos que sea de vuestro interés