[Grey-Walter] [ info ] Mapping Weblog Communities

Fri Jan 23 10:06:08 CET 2004

Hola,

perdón por responder con tanto retraso...

On Sat, 17 Jan 2004, Lluis wrote:

> On Wed, 14 Jan 2004 09:55:13 +0100
> Juan Julian Merelo Guervos <jmerelo at geneura.ugr.es> wrote:
>
>
> > El problema con el blogroll es que es difícil diferenciarlo del resto de
> > la basurilla hipertextual que pulula por ahí.
>
> entiendo que es complicadisimo diferenciar el blogroll, porque cada uno
> lo pone en las plantillas y donde le parece, y son el tipo de datos
> estaticos que no estan diferenciados en una BBDD, ni tampoco con
> metadatos o algun tipo de señalizacion que permita diferenciar donde
> acaba y empieza el blogroll, etc..

No es tan difícil: habitualmente el blogroll corresponde a un montón de
enlaces seguidos que no contienen otras palabras en medio, frente al
contenido de las historias que, habitualmente, contienen enlaces y
palabras por en medio. La cuestión es que el blogroll debería contar en un
análisis de la red social de los individuos: no es sólo un 'esta historia
me interesa' sino que es un apoyo más fuerte, es un 'casi todo lo que dice
este tipo me interesa'.

> de hecho yo para nuestro proyecto TOPPAC propuse hacer un analisis de posts
> de la red de medios independientes Indymedia, donde podiamos disponer de
> diferentes BBDDs de posts. Creo que el analisis de posts es muy acertado
> por las caracteristicas que reseñe en el otro mail, captura de una
> ventana de tiempo, captura de la dinamica de la red. Por otra parte,
> la extraccion de todos los links de una pagina, que si podemos hacer de forma
> automatizada, necesita filtrados complicados, que en el analisis de links de
> posts no es necesario.
> Y seguramente hay mas razones a considerar. Por ejemplo si estamos de
> acuerdo que los links en los posts reflejan un determinado tipo de conectividad,
> que pasa cuando capturamos todos los links de una pagina. Aun filtrando
> los links buenos, eliminando los links hacia la propia web a donde pertenece
> la pagina analizada, los links resultantes van a reflejar una conectividad muy
> hetereogenea, donde se van a mezclar links de posts, links de blogroll
> y otros links. Links que destacan mas unos que otros, porque no es lo
> mismo un link en una historia que un link en un blogroll o un link
> escondido en una pagina interior que no va a a ver nadie. Mientras
> los links en posts se encajan siempre en el flujo central visual
> del weblog, una especie de disposicion estructural que encaja a grandes
> rasgos en el mismo patron a todos esos links.
> No se si esa hetereogeneidad es buena o mala, pero en todo caso
> habria que tenerla en cuenta.
> Resumiendo: analizar solo los links en los posts me parece trabajar
> mas sobre terreno firme.

Discrepo: asi se pierde bastante información 0:), por no hablar de que,
como filtrarlo todo es casi imposible, al final no se si será peor
estudiar algo no filtrado completamente (pero filtrado) que los datos en
bruto.

> Aun todo esto, nosotros en el proyecto TOPPAC vamos a analizar
> las decenas de miles de paginas del servidor sindominio.net. yo
> la verdad es que el dia que se planteo la idea me parecio que
> tendriamos muchos problemas pero la verdad es que ahora estoy
> contento de que afrontemos este reto: analisis de los links de paginas
> extrayendo link por link del html. ya veremos si en algun punto no
> nos estrellamos, pero de momento vamos superando los primeros obstaculos.
> Te vas a reir, pero para nosotros, obtener la lista de completa urls
> para extraer ya esta resultando un problema(se mezclan paginas estaticas
> con infinidad de paginas dinamicas diferentes, weblogs, wikis, foros,
> editoras, en algun caso diversos idiomas, dominios, etc..) de momento con
> httrack para conseguir absolutamente todas las paginas y un buen filtrado
> posterior de paginas duplicadas y similares, lo vamos a solucionar.
>
>

-- 
Fernando