[Grey-Walter] [pr:topact] lista de enlaces

Lluis lluis at antaviana.net
Sat Nov 15 12:26:49 CET 2003


On Tue, 11 Nov 2003 18:48:29 +0100
Jorge Bernal (Koke) <koke at sindominio.net> wrote:

> creo que lo propio seria lanzar el programa que capture las urls pero
> ejecutandose en alguna de las maquinas de SD (siempre que no cargue mucho), con
> lo que el ancho de banda no se ve afectado :)

buena idea, ademas desde la red local seguro que el programa trabaja mejor :) 
administracion de sindominio, os parece bien?
propongo hacerlo con el programa httrack(httrack.com) que ya os mencione, 
estaria bien que entre todos nos mirasemos el programa este a
ver si nos sirve y nos convence ya que vamos a tener que escanear
un servidor de miles o decenas miles de paginas(se sabe de que volumen
estamos hablando???), dependera mucho de cuanto acotemos.
he visto que hay un programa que se autoanuncia mejor que httrack -habria
que verlo-, pero es windows y no es gpl, lo cual ya no mola tanto ;) 
(http://www.zylox.com/compare/httrack.php)

la gracia de httrack es que te genera un mirror de la web escaneada,
convirtiendo las paginas dinamicas en paginas estaticas para que
puedas navegarlo off-line, replicando la misma estructura de carpetas
que el site escaneado.
lo cual nos puede resultar util para ciertos analisis. en este caso
lo que nos interesa de momento es simplemente un listado de urls para 
el extractor de enlaces.
durante el escaneo se van a producir errores, links rotos, etc..
por un lado se genera por defecto un log de errores y por otro podemos 
generar un log con la lista de urls escaneadas.

en cuanto al espacio de busqueda, en principio httrack explora todo 
el espacio de paginas que estan linkeadas, supongo que las paginas que 
no esten linkeadas tendremos que hacer nuevos scans(los cuales como seran 
mas pequenyos podemos hacerlos desde una conexion externa para no
molestar a los admins de sindominio, el programa permite limitar el escaneo 
para evitar sobrecargas del servidor, o bien se puede hacer a traves de SSH 
si alguien es digno de esa confianza ;). Lo que no consigamos escanear habra 
que obviamente añadir manualmente si lo consideramos relevante para el muestreo.

he probado con 
httrack http://www.sindominio.net/autonomiasituada --priority=1 --structure=1 -v

--priority=1	 
* escanea solo html's, incluyendo paginas dinamicas, que es lo que nos interesa,
dejando de lado los graficos

--structure=1 
* esto facilita un log de lista de urls mas potable

por defecto explora todos los niveles de profundidad del dominio en cuestion,
a partir de la direccion que le hemos dado. en este caso pues me ha incluido
el linker. 

en cuanto a la acotacion, no lo he probado pero permite filtrar la urls, lo que 
nos permitira por ejemplo excluir los archivos de correo si no quisieramos 
que entren en el analisis.



-- 
Lluis & Pere Rocallaura
=================================================================
Antaviana		:: http://antaviana.net
Astramat		:: http://astramat.com/c/alife.html
Autonomia Situada	:: http://sindominio.net/autonomiasituada
=================================================================






More information about the Grey-Walter mailing list