[Grey-Walter] [ toppac ] datos topometricos

Xabier Barandiaran barandi at sf.ehu.es
Fri Jan 30 21:54:53 CET 2004


Aprovecho para comentar que el primer escaneo intenso está a la espera 
de que Marc (root de SD y asesor técnico de como hacer el escaneo sin 
comer ancho de banda) nos responda a algunas preguntas que le hemos 
enviado Lluis y yo. Por lo demás aprovecho a añadir algunos datos más 
que estaría bien incluir en nuestro datos topométricos.

Lluis wrote:
> Xabi sugirio hacer una lista de datos topometricos, antes de entrar
> en consideraciones de que entendemos por nodo, etc.. 
> siguiendo la idea de
> 
> TOPOMETRÍA: estracción de datos de un espacio (topos).
> TOPOGRAFÍA: unificación de esos datos en un mapa.
> TOPOLOGÍA: análisis de la estructura y características del espacio.
> CARTOGRAFÍA: estracción de un subespacio de la topografía para 
> intereses concretos, marcando recorridos, nombres, etc. de interés.
> 
> comienzo la lista, y entre todos vamos añadiendo :)
> 
> ###### Datos topométricos
> 
> * Tipos de documento escaneados: paginas en formato html
> * Número total de páginas escaneadas por httrack
> * Número de páginas escaneadas que devuelven algun tipo de error
> * Número de páginas desestimadas a través de filtros
> 	* Lista de filtros aplicados
> 
> Sobre la lista filtrada... 
> * Número de páginas para extracción de links
> * Número de páginas por idioma
> * Número de páginas estáticas/dinámicas
> * Número de links hacia fuera del servidor de SD (los "hacia
> dentro" no lo pongo ya que implica una definición de nodo)
 > * Top de dominios externos al servidor linkeados

* Número total de enlaces
* Número de enlaces internos = total - externos ;)
* Promedio de links por página

De todas formas como los nodos mapean directamente sobre la topometría 
(son en su mayoría subdirectorios) podemos también extraer directamente 
un montón de datos referentes a nodos. En otras palabras de la 
topometría a la topografía apenas hay diferencias. Los datos 
topográficos incluirían:

* Número total de nodos
* Promedio de páginas por nodo
* Ranking de nodos por números de páginas
* Número de enlaces promedio hacia un nodo, desde un nodo y dentro de un 
nodo.
* Ranking de nodos (enlazados) desde fuera y desde dentro


> 
> Estadísticas de visita
> 	* Evolución de visitas por meses
> 	* Evolución de tráfico por meses(número de GB/mes)
> 	* Actividad por días de la semana
> 	* Páginas más visitadas
> 	* Referers más usuales (de dónde viene la gente)
> 	* Uso de navegadores,

* En uso de navegantes se trataría de trazar las rutas de saltos entre 
enlaces que hacen los visitantes, esto nos daría una perspectiva de qué 
diferencias hay entre la estructura de conectividad de una red y su 
dinámica que seguramente NO cohincidan: i.e. las páginas con más enlaces 
entre sí no tienen porque ser las más visitadas entre sí. Aunque no sé 
si existen herramientas para registrar todo esto. Por supuesto no se 
trata de registrar la ip del visitante sino solo los recorridos, 
independientemente de quién los haga.

Pues eso seguro que me he dejado cosas...

Saludos,

Xabier




More information about the Grey-Walter mailing list