Mapas “geopolíticos” de internet: aplicación de las nuevas técnicas de representación de la información

Victor Herrero-Solana

Master en bibliotecología por la Universidad Autónoma de México. Licenciado en documentación (UGR). Profesor titular del Dpto. de Biblioteconomía y Documentación (UGR).

E-mail: victorhs@ugr.es

Jose Morales-del-Castillo

Diplomado en biblioteconomía y documentación (Universidad de Granada). Licenciado en documentación (UGR). Becario de Investigación del Dpto. de Biblioteconomía y Documentación (UGR).

E-mail: josemdc@fedro.ugr.es

Resumen

Analizando los sitios web de universidades de diferentes países es posible construir mapas que reflejen gráficamente las relaciones que se establecen entre ellas, utilizando para ello nuevas técnicas de representación de la información como el análisis de cocitación de sitios web (análisis de cositación) y el escalamiento multidimensional (MDS). Pretendemos demostrar que estas relaciones no son ajenas al mundo real, y que siguen un patrón político, en lugar de un patrón académico, permitiéndonos construir auténticos “mapas geopolíticos” de Internet. Proponemos utilizar este tipo de representaciones como una herramienta para el análisis sociopolítico de la realidad, ya que con estos mapas obtenemos una instantánea de una región geográfica y un momento determinado, de la que es posible extraer nueva y valiosa información.

Palabras clave

Sitios web de universidades; Técnicas de representación de la información; Webmetría; Escalamiento multidimensional; Análisis de cositación; Mapas del conocimiento.

“Geopolitical” maps of the Internet: application of new information representation methods

Abstract

Based on university website analysis, from different countries, maps can be built up that show visual relations among them. New information representation methods are used, such as web site cocitation (cositation analysis) and multidimensional scaling (MDS). An attempt has been made to demonstrate that these relations are closely tied up to the ones established in the real world, and that they suit a political pattern instead of an academical one, allowing us to generate Internet “geopolitical” maps. Our proposal is to use this kind of representations as tools for the social-political analysis of the real world environment. A snapshot can be gotten of a particular geographical region in a specific time, whereof new and valuable information can be obtained .

Keywords

University web sites; Information representation methods; Webometric;. Multidimensional Scaling; Cositation analisys; Knowledge maps.

CONSIDERACIONES PRELIMINARES

Para quién se aproxima por primera vez a Internet puede parecerle un territorio un tanto complejo y extraño. Pero si nos molestamos en observar con un poco de atención vemos que en realidad es un entorno que no nos tiene que resultar del todo ajeno o desconocido. De hecho Internet es una especie de réplica virtual de nuestro mundo: encontramos periódicos, bibliotecas, foros donde se reúne la gente a hablar de determinados temas, supermercados, universidades, etc.

Este paralelismo es al menos aparente, ya que ha habido un trasvase de cualidades del mundo real a este otro mundo virtual, pero no hay que olvidar que estamos ante dos medios de naturaleza muy diferente. De antemano hay una diferencia importante entre el mundo real e Internet: la ubicuidad. Por ejemplo, en el mundo real tenemos periódicos, pero cuando vamos al kiosco de la esquina, por regla general, solo encontramos los de tirada local y nacional, y no los extranjeros. Este componente localista no lo encontramos en la red, ya que las diferencias de tiempo de acceso a un periódico local o a uno del Japón son verdaderamente insignificantes. La existencia de estas diferencias nos lleva a preguntarnos si se han llegado a trasladar otro tipo de estructuras más sutiles, como las relaciones de afinidad y diferencia que se establecen entre diferentes individuos o entidades.

Tomemos como ejemplo concreto la naturaleza de las relaciones que se establecen entre instituciones académicas de diversos países. Está claro que estas relaciones de afinidad mutua están supeditadas a toda una serie de circunstancias históricas, políticas, sociológicas y económicas, por citar solo algunas. Si fuésemos capaces de representar de una forma visual estas relaciones en un momento determinado, ¿sería factible entonces diseñar un mapa de Internet capaz de representar las relaciones que se establecen entre estas instituciones en el mundo real?

Una de las cuestiones que quizás podríamos responder con este tipo de análisis consistiría en saber si las relaciones de las instituciones en el mundo virtual siguen el patrón geográfico/político que impone el mundo real, o por el contrario presentan una estructura de relaciones completamente independiente. Intentemos dar respuesta a esta pregunta.

MAPAS DEL CONOCIMIENTO

La construcción de mapas y otras representaciones gráficas con el fin de poder visualizar estructuras de relaciones sumamente complejas, es una tarea científica que se viene realizando desde hace casi dos décadas. Estas investigaciones florecieron particularmente en el ámbito de los mapas de la ciencia, que nos permite ver las relaciones entre los investigadores de un determinado campo temático. Existen infinidad de trabajos científicos que nos presentan mapas de la ciencia, pero son particularmente conocidos los realizados por White y McCain de la Universidad de Drexel, tanto para representar relaciones de autores (McCain, 1990) (White, 1998), como de revistas (McCain, 1991). Posteriormente otros autores han sofisticado estos primeros mapas, realizados con otras metodologías y dotándolos de mucha más información e interactividad (Chen 1998, 1999, 2001) (Noyons, 1998) (Ding et al., 2000) (Moya-Anegón; Herrero-Solana, 2002).

Las denominaciones empleadas por los investigadores para referirse a la aplicación de los métodos cuantitativos a la información han sido muy variadas: cienciometría, bibliometría, informetría, y, más recientemente, cibermetría (Faba; Guerrero; Moya, 2004). El primero de los términos que históricamente se ha utilizado es bibliometría. El precedente de la bibliometría se encuentra en elstatistical bibliography establecida por Hulme (1923), posteriormente sustituido por el término bibliometrics (Pritchard, 1969). Por su parte, cienciometría e informetría son conceptos que nacen en los años ‘80 y ‘90 respectivamente. Con estos conceptos se termina de configurar lo que los autores llaman estudios biblio- ciencio- informétricos. A principio de la presente década, Cronin (2001) plantea que los modelos y métodos utilizados en este tipo de estudios, pueden aplicarse al entorno de Internet. La cibermetría puede definirse, por tanto, como aquella disciplina que mide distintos aspectos de Internet utilizando técnicas cuantitativas bibliométricas que han mostrado ser especialmente potentes y pueden aplicarse en condiciones ventajosas a la descripción de recursos web (Aguillo, 2000).

En nuestro caso, el mapa que deseamos construir, a diferencia de los anteriores, trabaja exclusivamente con información extraída de Internet, pero se parecerá a estos en el sentido que vamos a utilizar en su construcción técnicas contrastadas, como las que encontramos en los trabajos ya citados. La aplicación de estas técnicas informétricas al ámbito web ha dado lugar a la aparición de la webometrics ó webmetría , que podemos definir como la ciencia que comprende la investigación de todas las comunicaciones en red, usando para ello técnicas de medida de carácter cuantitativo (Almind; Ingwersen, 1997). Dos de las principales técnicas usadas en la webmetría son el análisis de citas de sitios web, también denominadassitas (Rousseau, 1997), y el análisis del factor de impacto web (Ingwersen, 1998). Podemos encontrar una exhaustiva revisión de las investigaciones realizadas en este campo en el trabajo de Bar-Ilan (Bar-Ilan, 2001).

CÓMO CONSTRUIR EL MAPA

Lo que pretendemos en este trabajo es construir un mapa que refleje de una forma gráfica las relaciones que se establecen entre instituciones de diferentes países a partir del estudio de sus páginas web y comprobar si estas relaciones siguen algún tipo de patrón político. Para construir este tipo de mapas es preciso recurrir a técnicas avanzadas de representación de la información. Una de ellas es la aplicación combinada del escalamiento multidimensional o MDS (Multidimensional Scaling) y el análisis de cocitación de sitiosweb (Larson, 1996), que se construye a partir de las citas conjuntas que reciben dos sitios web desde una misma página. Partiendo de la premisa de que Internet es un entorno dinámico, en constante cambio, el mapa que vamos a obtener no es un mapa estático sino que evolucionará a lo largo del tiempo y sus “fronteras” no tienen en absoluto por qué coincidir con las físicas.

¿Qué tipo de webs vamos a analizar?

Aunque se podrían utilizarwebs de diferentes organismos o instituciones más o menos relacionadas con la administración del Estado de cada uno de los países a analizar, en nuestro caso vamos a trabajar con webs de universidades. El hecho de elegir precisamente universidades no es arbitrario, ya que presentan ciertas peculiaridades que las hacen especialmente interesantes para nuestros objetivos. Por un lado no hay que olvidar que la educación es un pilar básico en una sociedad, y su peso en ella depende directamente de las circunstancias sociopolíticas de su tiempo y lugar. Estas mismas circunstancias que afectan a la educación de un país son las que también afectan a ese país en otros ámbitos, como sus relaciones exteriores con el resto del mundo. Las universidades son, en definitiva, unas entidades vivas, altamente politizadas, que poseen una gran capacidad para absorber y reflejar fielmente estas circunstancias.

Sin embargo, al margen del contexto político, las universidades son instituciones que tienen como fin último el saber universal, más allá de fronteras e ideologías. De hecho las relaciones inter-universitarias tienen como objetivo, al menos declarado, lograr respuestas universales a preguntas universales.

Tenemos de esta manera, a priori dos elementos antepuestos que no sabemos como van a influir en el medio virtual, donde no existen fronteras para relacionar estructuras de conocimiento. Esta antonimia podríamos bautizarla como universalidad / nacionalidad.

Otra razón de peso para elegir estas webs es la facilidad para trabajar con ellas, ya que el principal problema al que nos enfrentamos si recurrimos a las webs de organismos gubernamentales es la dificultad existente para establecer las equivalencias correctas entre ellos debido a las diferencias en materia de competencia y de denominación que presentan.

¿Por qué análisis de cositación?

Esta técnica es, en principio, una de las maneras más sencillas de obtener información relacional, entre dos sitios web determinados. Consiste en construir una matriz de números a partir de los enlaces web (hyperlinks) conjuntos que reciben dos sitios web, desde una misma página. Para conseguir esta información basta con recurrir a las herramientas avanzadas de algunos de los motores de búsqueda que existen en la red. Este método, presenta el inconveniente de que para confiar plenamente en la validez y fiabilidad de los datos obtenidos sería necesario su exhaustivo filtrado ya que, en principio, no todas las referencias recuperadas tienen por que ser válidas (no sabemos si realmente todas se refieren al mismo sitio web). Pero dado que en este trabajo solo pretendemos presentar un ejemplo de cual podría ser la metodología para construir este mapa “geopolítico”, no hemos sido muy rigurosos en este aspecto ya que el objetivo que perseguimos no lo requiere.

A partir de ahora, y para diferenciar las citas de sitios web de las citas bibliográficas tradicionales vamos a recurrir a la terminología apuntada por Rousseau (1997), y vamos a hablar de sitas (producto de la fusión de los términos inglesessite [sitio web] y cite [cita]), y por derivación, de cositación.

Existen múltiples motivos por los que se pueden cositar dos webs: la proximidad geográfica ó idiomática, ó la similitud de contenidos. Pero, ¿hasta que punto en la cositación pueden influir las circunstancias históricas, sociales y políticas? Para comprobarlo veamos un caso práctico.

CASO PRÁCTICO

En concreto nos centraremos en el caso de Alemania, especialmente interesante por las peculiares circunstancias que rodean su historia reciente. Si hacemos un rápido repaso al último medio siglo vemos que tras la Segunda Guerra Mundial los aliados se reparten Alemania dando lugar a la aparición de dos estados: la República Federal Alemana (RFA), tutelada por Estados Unidos, Francia y Gran Bretaña, y la República Democrática Alemana (RDA) bajo la esfera de la antigua Unión Soviética. Se abre así una profunda brecha en el seno de Alemania. Una brecha que quedó patente de forma física en la ciudad de Berlín, dividida en dos durante décadas por el muro que levantaron las tropas rusas para separar la zona soviética de la controlada por estadounidenses, franceses y británicos. No será hasta octubre de 1989 en que se produce la caída del muro, cuando se abra el proceso de reunificación de “las dos Alemanias” dando lugar a la actual estructura del país y acabando con un desencuentro que duraba ya 40 años.

Partiendo de este escenario histórico, lo que pretendemos comprobar con este estudio es si en este hipotético mapa “geopolítico” de Internet que proponemos aparece la Alemania unificada de hoy día, o si por el contrario nos encontramos la Alemania de la Guerra Fría y el Telón de Acero. En otras palabras, queremos comprobar si pesa de algún modo el pasado en la forma en que es visto este país en Internet. Para ello vamos a tomar una muestra de universidades alemanas, estadounidenses y rusas y aplicaremos el MDS para obtener una representación gráfica de la relación que existe entre estaswebs a partir del análisis de lascositaciones de que son objeto en Internet. En la tabla I aparecen listadas las instituciones estudiadas con su correspondiente URL.

TABLA I

Listado de universidades

TABLA II

Matriz de consitación

Se han escogido un total de 16 universidades: 4 estadounidenses, 4 rusas y 8 alemanas (4 universidades que en su día pertenecieron a la RDA y otras 4 a la RFA). En concreto hemos considerado las universidades de Dresde, Potsdam, Chemnitz y Leipzig como universidades de la RDA, y las de Berlín, Frankfurt, Munich y Hamburgo como universidades de la RFA. El criterio de selección ha consistido en elegir una serie de universidades que posean un servidor web de cierta entidad, en cuanto al número de páginas albergadas, para que de esta forma aumenten sus posibilidades de ser citadas (de nada nos sirven sitios que no nos ofrecen información relacional). Para determinar tanto el tamaño de los servidores como las cositaciones hemos utilizado el motor de búsqueda Altavista (http://www.altavista.com) por las capacidades de su búsqueda avanzada (Bjönemborn, 2001). El comando host:dominio devuelve las páginas que alberga el servidor del dominio especificado, es decir, su tamaño. Con el comando link:dominio obtenemos las webs que tienen enlaces a un dominio concreto. Ya que Altavista soporta la búsqueda con operadores booleanos podemos obtener las cositaciones combinando dos dominios con el operador and (link:dominio1 and link:dominio2).

Hay que tener en cuenta que la validez de los resultados obtenidos depende en gran medida del método de recopilación elegido (BAR-ILAN, 1998) y de la misma naturaleza dinámica de Internet. La tabla II muestra los resultados de cositación obtenidos en Febrero de 2004.

En la diagonal principal (destacada en color amarillo) aparece el volumen del servidor, medido en cantidad de páginas web, de cada una de las universidades. A esta matriz de cositación le aplicamos la función de correlación 1-Pearson y construimos con ella una matriz de distancias.

Es con esta matriz resultante con la que vamos a trabajar utilizando distintos métodos de análisis estadístico. Usando un paquete estadístico comoStatistica realizamos un análisis de clustering y obtenemos el dendograma de la figura 1.

Aplicando esta técnica de análisis obtenemos una clasificación automática de los sitios web que estudiamos. Podemos observar como aparecen agrupados formando dos grandes bloques: por un lado están los de las universidades estadounidenses, y por otro los de rusas y alemanas (independientemente de si son de las universidades consideradas de Alemania del Este o del Oeste). Esta clasificación,a priori parece indicar que la cositación se ha hecho siguiendo un criterio geográfico, apareciendo una clara distinción entre universidades europeas y americanas. Dentro del grupo de las universidades europeas observamos que las rusas están incluidas en su clase correspondiente, pero nos llama la atención la circunstancia de que las alemanas aparecen, aunque dentro de una misma clase, agrupadas en dos subclases diferentes (¿distinguiendo quizás la RFA de la RDA?). Esto nos indica que existe una clara diferenciación entre las universidades que en su día estuvieron a un lado y a otro delmuro, cuando, por lógica, al pertenecer a un mismo país ya unificado desde 1990, no debería existir tal distinción, o al menos, no de una forma tan acusada. Se podría decir que, en este caso, en la cositación ha pesado en gran medida el factor geográfico, pero vemos que en el resto de países este no parece ser un criterio determinante. Deben existir, por tanto, otros factores adicionales, quizá sociopolíticos, que aún mantienen a Alemania desunida en Internet.

FIGURA 1

Para intentar clarificar más la situación, tras realizar el análisis de cluster, aplicamos a la matriz de distancias la técnica MDS y el resultado lo representamos con un gráfico de burbujas (figura 2). Para su correcta interpretación hay que tener en cuenta que el tamaño de las burbujas representa el tamaño del servidor web de cada universidad. Las burbujas están ordenadas de forma que las más pequeñas queden en primer término para obtener una mayor claridad y evitar pérdidas de información.

Lo primero que salta la vista es el evidente distanciamiento que existe entre las universidades de “las dos Alemanias”, cuando por norma general las webs de universidades de un mismo país suelen aparecer agrupadas formando un bloque más o menos compacto. Aparecen divididas en dos grupos bien diferenciados, entre los que se interponen las universidades estadounidenses. Alrededor de estas se apiñan las universidades de la RFA en la zona izquierda del mapa, mientras las de la RDA ocupan las posiciones centrales del gráfico y actúan de bisagra entre ambos “bloques”, trazando una línea imaginaria que divide el mapa en dos. Es como si de algún modo siguiera existiendo un intangible “Telón de Acero” que separa a Estados Unidos y Rusia, y cuyo nexo natural sigue siendo la “Alemania del Este”.

FIGURA 2

Posiciones relativas de los sitios web

Las universidades rusas por su parte aparecen a la derecha, en la periferia del mapa, poniendo de manifiesto la polarización entre los dos bloques. Quizá en el fondo las cosas no han cambiado tanto como podría parecer.

CONCLUSIONES

Internet no es ajena a los avatares del mundo y analizando convenientemente la información que de ella podemos obtener mediante diversas técnicas, como las que proponemos en este trabajo, nos podría servir como una valiosa fuente de información sociopolítica. Esta información es posible convertirla en forma de mapa gráfico que represente de manera clara sutiles relaciones de conexión entre diferentes instituciones o entidades, que de otro modo serían completamente imperceptibles.

Es obvio que llevar a cabo una tarea de este calibre a gran escala presenta una multitud de problemas técnicos. Aquí hemos visto una aplicación a muy pequeña escala de esta propuesta, con países con un nivel de desarrollo similar, y con universidades que disponen de grandes servidores para albergar sus sitios web. Por el momento, nos vemos limitados pues a estudiar aquellas universidades que dispongan de servidores lo suficientemente grandes como para ofrecer un mínimo de información relacional (los servidores que albergan muy pocas páginas tienen menos opciones de ser cositados). Por otro lado sería necesario extraer toda la información relacional en un plazo muy limitado de tiempo para intentar reflejar lo más fielmente posible esas relaciones en un momento muy concreto, ya que de lo contrario obtendríamos una imagen distorsionada debido al constante cambio al que se ve sometida Internet.

El análisis de cositaciones unido a la aplicación del MDS nos podrían servir como herramientas para descubrir estas relaciones entre organismos ó instituciones, que no están siempre patentes ni son fáciles de reconocer a simple vista. Como vemos, el mapa obtenido no coincide con el mapa geopolítico que podemos encontrar en un atlas, pero si que podemos considerarlo como un mapa “geopolítico” de Internet referido a un momento y región geográfica muy concretos, y del que se puede inferir nueva y valiosa información. Creemos que los humildes resultados obtenidos y presentados en este trabajo, dan un margen de optimismo para emprender análisis mayores en un futuro cercano.

Por último, es importante destacar que si bien las técnicas utilizadas para crear las representaciones gráficas son muy potentes, existen otras con las que también se pueden trabajar. Una de las líneas de investigación futura que llevaremos adelante, consiste en la experimentación de técnicas complementarias que ya han sido aplicadas a la creación de mapas de la ciencia, como por ejemplo las redes neuronales (Guerrero-Bote et al., 2002), (Guerrero-Bote; Moya-Anegón; Herrero-Solana, 2002) o el análisis de redes sociales (White et al., 2000) (WHITE, 2003).

Artigo recebido em 10-10-2004 e aceito para publicação em 29-03-2005.

REFERENCIAS

AGUILLO, I. F. Indicadores hacia una evaluación no objetiva (cuantitativa) de sedes web. In: JORNADAS ESPAÑOLAS DE DOCUMENTACIÓN, 7., 2000, Bilbao. [S. l. : s. n., 2000?].

ALMIND, T.; INGWERSEN, P. Informetric analyses on the World Wide Web: methodological approaches to “webometrics”. Journal of Documentation, v. 53, p. 404-426, 1997.

BAR-ILAN, J. Data collections methods on the web for informetric purposes: a review and analysis. Scientometrics, v. 50, n. 1, p. 7-32, 2001.

_______ . Search engine results over the time. Cybermetrics, v. 2/3, n. 1, 1998. Disponível em: < http://www.cindoc.csic.es/cybermetrics/articles/v2i1p1.html>.

BJÖRNERBON, L.; INGWERSEN, P. Perspectives of webmetrics. Scientometrics, v. 50, n. 1, p. 65-82, 2001.

CHEN, C. Bridging the gap: the use of pathfinder networks in visual navigation. Journal of Visual Languages and Computing, n. 9, p. 267-286, 1998.

_______ . Visualizing a knowledge domain´s intellectual structure.IEEE Computer, v. 34, n. 3, p. 65-71, 2001.

_______ . Visualizing semantic spaces and author co-citation networks in digital libraries. Information Processing e Management, v. 35, p. 401-420, 1999.

CRONIN, B. Bibliometrics and beyond: some thoughts on web-based citation analysis. Journal of Information Science, v. 27, n. 1, p. 1-7, 2001. DING, Y.; CHOWDHURY, G.; FOO, S. Journal as markers of intellectual space: journal co-citation analysis of information retrieval area, 1987-1997. Scientometrics, v. 47, n. 1, p. 55-73, 2000.

FABA PÉREZ, C.; GUERRERO BOTE, V.; MOYA ANEGÓN, F. Fundamentos y técnicas cibermétricas. Mérida : Sociedad de la Información/ Junta de Extremadura, 2004.

GUERRERO-BOTE, V. et al. Method for the análisis of the uses of scientific information: the case of the University of Extremadura (1996-1997). Libri: v. 52, n. 2, p. 99-109, 2002.

_______ ; MOYA-ANEGÓN, F.; HERRERO-SOLANA, V. Document organization using Kohonen´s algorithm. Information Processing e Management, v. 38, n. 1, p. 79-89, 2002.

HULME, E. W. Statistical bibliography in relation to the growth of modern civilization. London : Grafton, 1923.

INGWERSEN, P. The calculation of web impact factors. Journal of Documentation, v. 54, n. 2, p. 236-243, 1998.

LARSON, R. R. Bibliometrics of the World Wide Web: an exploratory analysis of the intellectual structure of cyberspace. In: ANNUAL MEETING OF ASIS, 59th, 1996. Global complexity: information, chaos and control. Proceedings… 1996. [S. l. : s. n., 1996?]. Disponível em: <http://dlist. sir.arizona.edu/archive/00000071/>.

McCAIN, K. W. Mapping authors in intellectual space: a technical overview. Journal of the American Society for Information Science, v. 41, n. 6, p. 433-443, 1990.

_______ . Mapping economics through the journal literature: an experimental in journal cocitation analysis. Journal of the American Society for Information Science, v. 42, n. 4, p. 290-296, 1991.

MOYA-ANEGÓN, F.; HERRERO-SOLANA, V. Visibilidad internacional de la producción científica iberoamericana en bibliotecología y documentación (1991-2000). Ciência da Informação, Brasília, v. 31, n. 3, p. 54-65, 2002.

NOYONS, E. C. M. Mapping scientometrics, informetrics, and bibliometrics: bibliometric mapping as a policy support tool. In: STI CONFERENCE, 1998. [S. l. : s. n., 1998?].

PRITCHARD, A. Statistical bibliography or bibliometrics? Journal of Documentation, v. 25, n. 4 , p. 348–349, 1969.

ROUSSEAU, R. Citations: an exploratory study. Cybermetrics, n. 1, 1997. Disponível em: <http://www.cindoc.csic.es/cybermetrics/articles/ v1i1p1.html>.

WHITE, H. D.; McCAIN, K. W. Visualizing a discipline: an author co-citation analysis of information science, 1972-1995. Journal of the American Society for Information Science, v. 49, n. 4, p. 327-355, 1998.

WHITE, H. Pathfinder networks and author cocitation analysis: a remapping of paradigmatic information scientists. Journal of the American Society for Information Science and Technology, v. 54, n. 5, p. 423-434, 2003.

_______ ; BUZYDLOWSKI, J.; LIN, X. Co-cited author maps as interfaces to digital libraries: designing pathfinder networks in the humanities. Information Visualization. London : [s. n.], 2000. Disponível em: <http:// faculty.cis.drexel.edu/~jbuzydlo/papers/IV2000.pdf>.