[Grey-Walter] (pr:topact) resumen 1

Lluis lluis at antaviana.net
Sat Dec 13 20:55:09 CET 2003


hola a todos,

sorry que estado unos dias muy atareado y no os he dicho nada.
me alegro que el proyecto os resulte estimulante :)

ahi van mis cinco centimos:

yo empezaria con el analisis a nivel de enlaces, siguiendo un poco el ejemplo 
del estudio de la blogosfera hispana. como propuse, para conseguir la lista 
de enlaces lo podemos hacer con httrack. en cuantos al tema idiomas, si nos
centramos de momento en tema enlaces, creo que el hecho de que pueda 
haber paginas en diferentes idiomas dentro del mapa no es un problema. 
es decir el caso p.ej. que una pagina este en catalan y no tenga su
equivalente en otro idioma. si puede ser problema una web o pagina 
multi-idioma, deberiamos decidir si lo consideramos un "duplicado de
informacion" que podria afectar negativamente al analisis y por lo tanto
deberian ser eliminadas las paginas que sean la misma version de una
pagina en otros idiomas. Creo que detectar cuales son esas paginas
"duplicadas" es un trabajo que se tiene que hacer manual, pero podemos
recurrir a google y con buenos filtrados podemos detectar bien
cuales son esas webs o paginas que puedan tener mas de un idioma.
Con lo cual primero extraeria la lista integra de URL's con httrack
y luego con un "replace" o similar quitaria las paginas duplicadas.

el siguiente paso sera revisar la lista, corregir posibles incidencias 
y volverla a revisar repetidamente hasta que nos quedemos satisfechos.

luego necesitaremos algun programa tipo blogometro
(http://blogometro.blogalia.com)
que extraiga los enlaces de todas las urls que haya en la lista
y generar un fichero que podamos analizar en algun programa de
analisis de redes como Visone, Ucinet, etc..
si alguien quiere mirarse el blogometro y investigar este tema fantastico,
ahi es posible que necesitemos adaptar o hacer un programa a medida.

el siguiente paso sera analizar los datos en p.ej. Visone(que es el unico que
conozco en Linux) y comprobar que los pasos anteriores se han hecho
correctamente y estamos satisfechos con ellos.
a partir de ahi ya podemos decidir que es lo queremos analizar y obtener 
a partir de los datos de enlaces.
por otra parte tambien dispondremos a nivel de estadisticas de visita,
de los datos de webalizer (http://www.sindominio.net/webalizer/)


-- 
Lluis & Pere Rocallaura
=================================================================
Antaviana		:: http://antaviana.net
Astramat		:: http://astramat.com/c/alife.html
Autonomia Situada	:: http://sindominio.net/autonomiasituada
=================================================================






More information about the Grey-Walter mailing list