“Do a barrel roll”

Una pequeña reflexión sobre la documentación en Internet
 

Tim Berners-Lee (físico inglés investigador en el Centro Europeo de Investigación Nuclear (CERN, Ginebra) presentó en 1989 su proyecto de sistema de distribución de la información accesible por medio de Internet basado en enlaces de hipertexto. La World Wide Web revolucionó el mundo de las redes informáticas, incorporando un nuevo concepto, el de navegación (proceso simple e intuitivo) y permitiendo una comunicación rápida y global a una escala sin precedentes. La libertad absoluta de publicación de información ha posibilitado la fructífera expansión de los contenidos disponibles en la Web, pero también ha propiciado cierto caos. Y es que detrás de la pantalla, nuestra «ventana al universo digital, existe una gigantesca galaxia de contenidos» 1, cuya cantidad e inaccesibilidad impresionan y desmoralizan.

13n

 

La denominada Web invisible encuentra su origen en el uso generalizado y la eficacia muy poco cuestionada de los motores de búsqueda. El término hace referencia a todo el contenido que estas herramientas generalistas no indexan. La mayoría de los usuarios se conforma con surcar la superficie de la Red, perdiéndose todo un océano de contenidos muy valiosos ocultos en las profundidades del mismo.

Abrumados por la ingente cantidad de información que realmente se maneja en Internet, prefieren esconder el mareante panorama tras el simpático interfaz de ciertas herramientas que creen pueden orientarles en un territorio anárquico y facilitar el acceso rápido a la información que buscamos, cuando en realidad no hacen sino limitar sus posibilidades de éxito en su búsqueda.

En su clasificación de resultados, Google ordena las páginas en función de su popularidad (número de hipervínculos que llevan a esas páginas) sin entrar en un análisis más detallado de la información que muestran, respetando así el secreto profesional, la privacidad de los usuarios y manteniendo la neutralidad, o eso aseguran. Lo cierto es que existen mecanismos para engañar al “gigante”. En muchas ocasiones, resulta más fácil encontrar un sitio publicitario, seguir un enlace patrocinado o acabar en un lugar fraudulento que conseguir que el buscador logre hacer coincidir las palabras clave especificadas por el usuario con los documentos más relevantes existentes en la Red. Queda claro, pues, que no siempre compartimos preferencias y prioridades con esos ojillos multicolor.

Aquellos de nosotros que buscamos información rigurosa y especializada no podemos ignorar el sinfín de recursos utilísimos que no consiguen emerger. Que no sean fácilmente localizables no significa que no existan. Tampoco debemos olvidar que aún existen muchos datos que no han sido digitalizados e incluidos en Internet y que dicha información no es en absoluto prescindible.

Desde un punto de vista documental, existen cuatro categorías de recursos a nuestra disposición:

  • Catálogos de bibliotecas y bases de datos bibliográficas (accesibles a través de pasarelas web). 

 

  • Bases de datos («inmensas fuentes de información organizadas por temas y catalogadas manualmente con calidad, actualidad y fiabilidad rigurosas»2 con un amplio abanico de tipologías, de texto completo, alfanuméricas incluyendo obras de referencia como enciclopedias y diccionarios).

 

  • Revistas electrónicas y archivos de documentos.

 

  • Repositorios de colecciones de documentos.

Atendiendo a los niveles de profundidad de la información digital, o lo que es lo mismo, su grado de invisibilidad, podemos hablar de red opaca (sección amplia de la Red que se podría indexar pero que es difícilmente localizable), red privada (el acceso a esta información está restringido por robots de protocolo de exclusión, códigos <noindex> o requiere contraseña), red de propiedad (en este caso es necesario el registro previo, ya sea gratuito o no) y la verdadera Web profunda (incluye archivos comprimidos, Postscript, Flash, Shockwave, programas ejecutables y páginas de contenido dinámico).

En un universo digital con contenidos duplicados, espejos de bases de datos, sitios fantasma y páginas desaparecidas, las arañas (robots inteligentes de los buscadores) han de sortear un sinfín de obstáculos en sus labores de rastreo, indización y catalogación. Los motores generalistas no están programados para la estructura de las bases de datos ni el lenguaje de comandos para extraer información de ellas. El lenguaje de encriptación empleado en la generación de estas páginas «hace entrar a las arañas en un círculo sin fin y las colapsa, lo que podría solucionarse si se estableciesen códigos de ética para estos sitios dinámicos, permitiendo indexar estas bases de datos sin peligro»3.

Otras veces no se trata tanto de dificultades técnicas como de intereses y barreras comerciales. En este sentido, Google trabaja para llegar a acuerdos con bases de datos particulares (la información alojada en estas bases de datos constituye la mayor parte de la Web profunda) para poder indexar sus contenidos. Así, WorldCat, el autodenominado mayor catálogo de bibliotecas del mundo, es ahora accesible (en parte) para todos los usuarios de Google.

El acceso libre (open access) es el movimiento que preconiza el acceso sin restricciones de ningún tipo a la literatura científica digital. Está intrínsecamente ligado a Creative Commons, que regula las modalidades de utilización de este material científico mediante una colección de licencias copyright que recogen diferentes opciones y cuya política de privacidad los motores entienden. De este modo, se publica en Internet literatura científica de calidad, garantizando el acceso a fuentes fiables de terminología y bases de datos que las universidades, bibliotecas, organismos y centros de investigación ordenan, comentan y clasifican.

El gran desafío, el objetivo último al que se aspira es el de la digitalización de toda la información, su clasificación y su indexación para su fácil acceso a través de los motores de búsqueda.

El camino hacia el perfeccionamiento y la evolución de estas herramientas se desvía en muchas ocasiones y deriva en la competencia entre máquinas que miden sus capacidades de acuerdo al número de algoritmos de búsqueda de que disponen en una lucha de fuerza bruta.

El problema es más sutil y ciertamente más complejo. Y es llegado este punto que surge la necesidad de desarrollar el proyecto de la Web semántica. Se trata de un paso de gigante: paso de la mera información al conocimiento. Del universo caótico al cosmos ordenado.

«La Web Semántica es una visión: la idea de tener datos en la web definidos y enlazados de forma que puedan ser utilizados por máquinas no sólo con el fin de presentarlos, sino también para la automatización e integración de la información a través de varias aplicaciones.» Tim Berners-Lee: A New Form of Web Content that is Meaningful to Computers will Unleash a Revolution of New Posibilities, Scientific America, 284.

Este filtrado automático mucho más preciso emularía las capacidades cognitivas humanas, permitiendo definir cada documento por medio de la consolidación e interacción de los significados subyacentes. Algunos buscadores, como por ejemplo WolfranAlfa, parten ya de una base de conocimientos que se asienta en un análisis previo del lenguaje. Cabe destacar también el papel de los RSS y los FOAM.

El verdadero aprovechamiento del lenguaje, así como la incorporación de un factor social e interactivo abrirían un nuevo abanico de prometedoras posibilidades en el proceso de documentación y recuperación de información.

Como todo gran avance, no obstante, también presenta sus serios inconvenientes. Muy serios, de hecho, pues, cuando hablamos de la indexación de toda la información existente por los motores de búsqueda ¿hasta qué punto es deseable que una empresa se haga con el control de toda la información del mundo? Las cuotas de mercado de Google son tan grandes que no es descabellado afirmar que podría tener el monopolio de la información en Internet. ¿Qué consecuencias tendría esto? Al margen del problemático tratamiento de la información estrictamente personal (polémica suscitada por aplicaciones como Google Maps y desconfianza de ciertos usuarios de Gmail y  Google +), que Google ya ha admitido en más de una ocasión utilizar con el fin de mejorar sus prestaciones, ¿acaso no propiciaría una tendencia al monolingüismo y conduciría a una peligrosa homogeneización de opiniones con el consecuente riesgo de manipulación? ¿Y si el “gigante” decidiese dejar de confiar en muestra capacidad de análisis crítico?

Escribid do a barrell roll en la casilla de búsqueda de Google. ¿Y bien?

Hoy por hoy, no es más que un «truco de magia», pero podría ser una realidad. Admitamos que es tentadora la idea de  lograr que una máquina te entienda y  te ahorre «trabajo innecesario».

¿O no?

 6

 

 Referencias

  1. (Tascón, Mario: 14) Prólogo  (véase Salazar, Idoia. Las Profundidades de Internet.)
  2. (Salazar, Idoia:  25)
  3. (Salazar, Idoia:  16)

Bibliografía

  •  Salazar, IdoiaLas profundidades de Internet: accede a la información que los buscadores no encuentran y descubre el futuro inteligente de la red. Gijón: Trea, 2005.
  •   The Fisrt Ever Web Server” World Wide Web@20 [en línea], marzo 2009, http://info.cern.ch  [Fecha de consulta: 7 de noviembre de 2011].

————————————————————————————————————————————

DOODLES   &   GOOGLE TRICKS

Advertisements