[Grey-Walter] (pr:topact) resumen 1

David Gómez i Fontanills dvd at enlloc.org
Tue Dec 23 23:16:15 CET 2003


Yo veo que el problema de lo que estáis planteando es basarse en la 
estructura de directorios. La estructura "tecnica" no suele corresponder 
con la "de contenidos". Puede que sea así en el primer nivel de 
sindominio pero no creo que lo sea en los niveles siguientes. Y no sería 
aplicable a otros dominios que no tuvieran este criterio.

Creo que lo interesante, para no verse abrumado por un "grano demasiado 
fino", sería usar distintos "filtros" alternativos.
Algunos ejemplos:
- mostrar sólo los enlaces con nodos "externos" (otros dominios)
- mostrar sólo los enlaces a nodos "internos"
- mostrar sólo los enlaces entre nodos que tienen doble dirección
- mostrar sólo los nodos que reciben (o "envían" o reciben y envian) más 
de 'n' enlaces
- etc...

Lluis wrote:

>>He probado un pequeño caso real (alrededor de 1000 páginas descargadas
>>desde sindominio.net) y la cantidad de nodos que me salen (enlaces hacia
>>el exterior) son bastantes (1045) y eso que he tenido bastantes errores
>>parseando htmls, aunque tb me han dado falos positivos (sindominio.net
>>como dominio ajeno a www.sindominio.net).
>>    
>>
>
>perfecto Javi, con esto vamos avanzando un poco mas.
>un detalle importante es que yo entiendo por webs externas, aquellas webs 
>"externas a la propia carpeta donde esta la pagina", con lo cual 
>obtendriamos tambien, aparte de la conexion a servidores externos a 
>sindominio, la conexion de enlaces entre las diferentes webs -dentro- del 
>servidor de sindominio. a ver si me se explicar bien. p.ej.
>tenemos las siguientes paginas:
>
>1. sindominio.net/autonomiasituada/s/index.php
>2. sindominio.net/biblioweb/index.html
>3. sindominio.net/index.html
>4. sindominio.net/autonomiasituada/s/arxiu/index.php
>
>la idea seria que en la pagina 1, en el momento de extraer sus enlaces, se 
>considerara a las paginas 2 y 3 como paginas externas(es decir como enlaces 
>a registrar), y a la pagina 4 como pagina de la misma web, dentro de misma 
>la carpeta de "autonomia situada", y por tanto no se deberia registrar ese 
>enlace. quizas habria que definir dos tipos de paginas externas, las externas
>a la propia web, y las externas al servidor sindominio.net, para clarificar
>el tema.
>
>  
>
>>¿Hay alguna forma de tener un diagrama jerarquico con nodos compuestos por
>>otros nodos? Porque supongo que sería la forma optima de tener toda la
>>información sin perderse en ella.
>>    
>>
>
>buena pregunta. siguiendo con el planteamiento de mas arriba,
>creo que las paginas que estan bajo una misma carpeta, deberian
>agruparse bajo un mismo nodo. es decir "/autonomiasituada/loquesea" seria
>un nodo, "/biblioweb/loquesea" otro.
>quizas podamos partir como criterio general que las carpetas de primer 
>nivel del servidor "sindominio.net/xxxxx" son los nodos. un poco la idea
>seria que sindominio.net/xxxxx = web de un colectivo o simplemente
>una unidad coherente de contenidos(revista suburbia,biblioweb, etc..)
>si mirais la pagina http://sindominio.net/colectivos.shtml vereis
>que parece que la cosa va bastante asi, cada carpeta de primer nivel 
>parece corresponderse a una unidad de web o colectivo.
>de forma que podamos hacer respecto a los links entre webs de
>sindominio, mapas como este, imaginaros que cada weblog es
>una de las webs-colectivo de sindominio:
>http://atalaya.blogalia.com/historias/7455
>
>supongo que este criterio general habra que afinarlo y estudiarlo
>para algunos casos concretos que se pueda hacer "el grano mas fino"
>para evitar que un nodo esconda diversas webs.
>
>¿se me entiende todo lo que digo? es que no si me he explicado
>con suficiente detalle :)
>
>venga compañeros que esto ya se va encarrilando! aunque sea poco a poco ;)
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>  
>
>>Os paso fichero adjunto donde solo queda generar el fichero. Pero me
>>gustaría que me dijerais cual de las siguientes opciones os gusta más:
>>
>>- Todo sindominio.net es representado por un nodo y cada uno de los
>>servidores externos como otros. (Grano grueso pero más manejable)
>>- Todo sindominio.net es representado por un nodo y cada pagina externa
>>como otro nodo.
>>- Cada pagina con enlaces al exterior de sindominio.net como un nodo y
>>cada dominio del exterior como un nodo
>>- Cada pagina con enlaces al exterior de sindominio.net como un nodo y
>>cada pagina enlazada del exterior como otro nodo (Grano fino pero
>>muchisimos datos dificiles de manejar)
>>- Cada pagina de subdominio con o sin enlaces al exterior como un nodo y
>>cada pagina del exterior como otro nodo. (El grano más fino con el que
>>se puede estudiar el sistema, pero tan fino que no creo que se pudiera
>>procesar en un tiempo razonable los datos)
>>
>>Espero ideas para poder dar por completado el primer esbozo de topact
>>(después se podrían hacer optimizaciones y mejoras sobre esta primera
>>iteracion).
>>
>>Para hacer correr una prueba es necesario correr primero el HTTrack y
>>despues se ejecuta el script pasando el fichero de log generado como
>>parametro. Se puede usar cualquier pagina aunque no sea de
>>sindominio.com (ej: una web local), de esta forma no es necesario
>>descargarse sindominio.net (y si lo intentais paradlo a tiempo ;-))
>>
>>Un saludo:
>>
>>Javi
>>
>>
>>----- Mensaje Original -----
>>De: "Juan J. Merelo" Guervós <jmerelo at geneura.ugr.es>
>>Fecha: Jueves, Diciembre 18, 2003 8:39 pm
>>Asunto: Re: [Grey-Walter] (pr:topact) resumen 1
>>
>>    
>>
>>>Hola,
>>>
>>>
>>>      
>>>
>>>>Fernando, JJ, nos podeis aconsejar? algun archivo de ejemplo?
>>>>        
>>>>
>>>Con visone se usan matrices del tipo
>>>   a b c d...
>>>a   x x x x
>>>b   x x x x
>>>...
>>>
>>>Así sucesivamente. Luego, de visone puedes exportar formato .dl,
>>>que es
>>>el que maneja Pajel y UCINET.
>>>
>>>JJ
>>>
>>>
>>>      
>>>
>>_______________________________________________
>>Grey-Walter mailing list
>>Grey-Walter at listas.sindominio.net
>>https://listas.sindominio.net/mailman/listinfo/grey-walter
>>    
>>
>
>
>
>
>  
>





More information about the Grey-Walter mailing list