[Grey-Walter] [ info ] Mapping Weblog Communities
Lluis
lluis at antaviana.net
Sat Jan 17 21:06:22 CET 2004
On Wed, 14 Jan 2004 09:55:13 +0100
Juan Julian Merelo Guervos <jmerelo at geneura.ugr.es> wrote:
> El problema con el blogroll es que es difícil diferenciarlo del resto de
> la basurilla hipertextual que pulula por ahí.
entiendo que es complicadisimo diferenciar el blogroll, porque cada uno
lo pone en las plantillas y donde le parece, y son el tipo de datos
estaticos que no estan diferenciados en una BBDD, ni tampoco con
metadatos o algun tipo de señalizacion que permita diferenciar donde
acaba y empieza el blogroll, etc..
de hecho yo para nuestro proyecto TOPPAC propuse hacer un analisis de posts
de la red de medios independientes Indymedia, donde podiamos disponer de
diferentes BBDDs de posts. Creo que el analisis de posts es muy acertado
por las caracteristicas que reseñe en el otro mail, captura de una
ventana de tiempo, captura de la dinamica de la red. Por otra parte,
la extraccion de todos los links de una pagina, que si podemos hacer de forma
automatizada, necesita filtrados complicados, que en el analisis de links de
posts no es necesario.
Y seguramente hay mas razones a considerar. Por ejemplo si estamos de
acuerdo que los links en los posts reflejan un determinado tipo de conectividad,
que pasa cuando capturamos todos los links de una pagina. Aun filtrando
los links buenos, eliminando los links hacia la propia web a donde pertenece
la pagina analizada, los links resultantes van a reflejar una conectividad muy
hetereogenea, donde se van a mezclar links de posts, links de blogroll
y otros links. Links que destacan mas unos que otros, porque no es lo
mismo un link en una historia que un link en un blogroll o un link
escondido en una pagina interior que no va a a ver nadie. Mientras
los links en posts se encajan siempre en el flujo central visual
del weblog, una especie de disposicion estructural que encaja a grandes
rasgos en el mismo patron a todos esos links.
No se si esa hetereogeneidad es buena o mala, pero en todo caso
habria que tenerla en cuenta.
Resumiendo: analizar solo los links en los posts me parece trabajar
mas sobre terreno firme.
Aun todo esto, nosotros en el proyecto TOPPAC vamos a analizar
las decenas de miles de paginas del servidor sindominio.net. yo
la verdad es que el dia que se planteo la idea me parecio que
tendriamos muchos problemas pero la verdad es que ahora estoy
contento de que afrontemos este reto: analisis de los links de paginas
extrayendo link por link del html. ya veremos si en algun punto no
nos estrellamos, pero de momento vamos superando los primeros obstaculos.
Te vas a reir, pero para nosotros, obtener la lista de completa urls
para extraer ya esta resultando un problema(se mezclan paginas estaticas
con infinidad de paginas dinamicas diferentes, weblogs, wikis, foros,
editoras, en algun caso diversos idiomas, dominios, etc..) de momento con
httrack para conseguir absolutamente todas las paginas y un buen filtrado
posterior de paginas duplicadas y similares, lo vamos a solucionar.
--
Lluis & Pere Rocallaura
=================================================================
Antaviana :: http://antaviana.net
Astramat :: http://astramat.com/c/alife.html
Autonomia Situada :: http://sindominio.net/autonomiasituada
=================================================================
More information about the Grey-Walter
mailing list