[Grey-Walter] (pr:topact) resumen 1

Lluis lluis at antaviana.net
Tue Dec 23 17:23:05 CET 2003


>He probado un pequeño caso real (alrededor de 1000 páginas descargadas
>desde sindominio.net) y la cantidad de nodos que me salen (enlaces hacia
>el exterior) son bastantes (1045) y eso que he tenido bastantes errores
>parseando htmls, aunque tb me han dado falos positivos (sindominio.net
>como dominio ajeno a www.sindominio.net).

perfecto Javi, con esto vamos avanzando un poco mas.
un detalle importante es que yo entiendo por webs externas, aquellas webs 
"externas a la propia carpeta donde esta la pagina", con lo cual 
obtendriamos tambien, aparte de la conexion a servidores externos a 
sindominio, la conexion de enlaces entre las diferentes webs -dentro- del 
servidor de sindominio. a ver si me se explicar bien. p.ej.
tenemos las siguientes paginas:

1. sindominio.net/autonomiasituada/s/index.php
2. sindominio.net/biblioweb/index.html
3. sindominio.net/index.html
4. sindominio.net/autonomiasituada/s/arxiu/index.php

la idea seria que en la pagina 1, en el momento de extraer sus enlaces, se 
considerara a las paginas 2 y 3 como paginas externas(es decir como enlaces 
a registrar), y a la pagina 4 como pagina de la misma web, dentro de misma 
la carpeta de "autonomia situada", y por tanto no se deberia registrar ese 
enlace. quizas habria que definir dos tipos de paginas externas, las externas
a la propia web, y las externas al servidor sindominio.net, para clarificar
el tema.

>¿Hay alguna forma de tener un diagrama jerarquico con nodos compuestos por
>otros nodos? Porque supongo que sería la forma optima de tener toda la
>información sin perderse en ella.

buena pregunta. siguiendo con el planteamiento de mas arriba,
creo que las paginas que estan bajo una misma carpeta, deberian
agruparse bajo un mismo nodo. es decir "/autonomiasituada/loquesea" seria
un nodo, "/biblioweb/loquesea" otro.
quizas podamos partir como criterio general que las carpetas de primer 
nivel del servidor "sindominio.net/xxxxx" son los nodos. un poco la idea
seria que sindominio.net/xxxxx = web de un colectivo o simplemente
una unidad coherente de contenidos(revista suburbia,biblioweb, etc..)
si mirais la pagina http://sindominio.net/colectivos.shtml vereis
que parece que la cosa va bastante asi, cada carpeta de primer nivel 
parece corresponderse a una unidad de web o colectivo.
de forma que podamos hacer respecto a los links entre webs de
sindominio, mapas como este, imaginaros que cada weblog es
una de las webs-colectivo de sindominio:
http://atalaya.blogalia.com/historias/7455

supongo que este criterio general habra que afinarlo y estudiarlo
para algunos casos concretos que se pueda hacer "el grano mas fino"
para evitar que un nodo esconda diversas webs.

¿se me entiende todo lo que digo? es que no si me he explicado
con suficiente detalle :)

venga compañeros que esto ya se va encarrilando! aunque sea poco a poco ;)

















>Os paso fichero adjunto donde solo queda generar el fichero. Pero me
>gustaría que me dijerais cual de las siguientes opciones os gusta más:
>
>- Todo sindominio.net es representado por un nodo y cada uno de los
>servidores externos como otros. (Grano grueso pero más manejable)
>- Todo sindominio.net es representado por un nodo y cada pagina externa
>como otro nodo.
>- Cada pagina con enlaces al exterior de sindominio.net como un nodo y
>cada dominio del exterior como un nodo
>- Cada pagina con enlaces al exterior de sindominio.net como un nodo y
>cada pagina enlazada del exterior como otro nodo (Grano fino pero
>muchisimos datos dificiles de manejar)
>- Cada pagina de subdominio con o sin enlaces al exterior como un nodo y
>cada pagina del exterior como otro nodo. (El grano más fino con el que
>se puede estudiar el sistema, pero tan fino que no creo que se pudiera
>procesar en un tiempo razonable los datos)
>
>Espero ideas para poder dar por completado el primer esbozo de topact
>(después se podrían hacer optimizaciones y mejoras sobre esta primera
>iteracion).
>
>Para hacer correr una prueba es necesario correr primero el HTTrack y
>despues se ejecuta el script pasando el fichero de log generado como
>parametro. Se puede usar cualquier pagina aunque no sea de
>sindominio.com (ej: una web local), de esta forma no es necesario
>descargarse sindominio.net (y si lo intentais paradlo a tiempo ;-))
>
>Un saludo:
>
>Javi
>
>
>----- Mensaje Original -----
>De: "Juan J. Merelo" Guervós <jmerelo at geneura.ugr.es>
>Fecha: Jueves, Diciembre 18, 2003 8:39 pm
>Asunto: Re: [Grey-Walter] (pr:topact) resumen 1
>
> > Hola,
> >
> >
> > > Fernando, JJ, nos podeis aconsejar? algun archivo de ejemplo?
> >
> > Con visone se usan matrices del tipo
> >    a b c d...
> > a   x x x x
> > b   x x x x
> > ...
> >
> > Así sucesivamente. Luego, de visone puedes exportar formato .dl,
> > que es
> > el que maneja Pajel y UCINET.
> >
> > JJ
> >
> >
>
>
>_______________________________________________
>Grey-Walter mailing list
>Grey-Walter at listas.sindominio.net
>https://listas.sindominio.net/mailman/listinfo/grey-walter




-- 
Lluis & Pere Rocallaura
=================================================================
Antaviana		:: http://antaviana.net
Astramat		:: http://astramat.com/c/alife.html
Autonomia Situada	:: http://sindominio.net/autonomiasituada
=================================================================






More information about the Grey-Walter mailing list