[Grey-Walter] (pr:topact) resumen 1

Lluis lluis at antaviana.net
Thu Dec 18 19:29:45 CET 2003


On Wed, 17 Dec 2003 23:37:58 +0100
NOCREYENTES <NOCREYENTES at terra.es> wrote:

Hola Javi

> Incluso se podrían generar requisitos para hacer los programas que
> analizan los datos finales, dicho de otro modo, ¿qué datos nos interesa
> obtener?

ese es un punto importante. que estructura de datos nos interesa obtener
para importar con programas como Visone y luego analizar/visualizar
la red de enlaces.
Fernando, JJ, nos podeis aconsejar? algun archivo de ejemplo?

> Use wget porque si hago una llamada a
> http://acp.sindominio.net/search.pl?op=comments&sid=valoracionhuelga con
> el HTTrack me escribia un nombre de fichero que no tenia mucho que ver
> con esa URL (se puede cambiar?), mientras que con el wget me salia algo
> como acp.sindominio.net/search.pl at op=comments&sid=valoracionhuelga.

si, se puede cambiar para que en el log capture la direccion real de la url.

httrack http://www.sindominio.net/autonomiasituada --priority=1 --structure=1 -v

--priority=1	 
* escanea solo html's, incluyendo paginas dinamicas, que es lo que nos interesa,
dejando de lado los graficos

--structure=1 
* esto facilita el log de lista de urls con las direcciones reales

por defecto explora todos los niveles de profundidad del dominio en cuestion,
a partir de la direccion que le hemos dado. en este caso pues incluiria 
el linker. 

> Luego me he hecho un script en python muy simplon (que adjunto) y
> ayudado del find para procesar unos cuantos ficheros he sacado un
> pequeño fichero de prueba. Tiene 3 columnas: pagina, link,
> texto_del_link. Adjunto fichero de muestra.

perfecto, no se de python :) pero tu programilla me parece que
puede ser el punto de partida para la araña que necesitamos.
he mirado el topact.log y te comento un detalle.
necesitaremos filtrar solo los enlaces hacia urls "externas" a
la propia web donde esta ubicada la pagina de la que extraemos
los links. por ejemplo, si extraemos los links de
http://sindominio.net/autonomiasituada/s/index.php
todos los links a la propia web (p.ej. faq.html) no deberian
aparecer en el log. 

> Una vez hecha la introducción ya puedo lanzar unas preguntas al aire.
> ¿Me interesa conocer todos los enlaces o solo htmls? ¿Me interesa saber
> el mime-type de los ficheros de los enlaces?

buena pregunta. en principio yo lo haria solo de todas las paginas html
estaticas o dinamicas, descartando de enlaces al resto de formatos. despues 
segun como lo veamos podemos hacer una segunda lista, por ejemplo de paginas 
en txt(p.ej. para capturar boletines en txt), que quizas podria ser interesante.

> Me he dado cuenta que con un poco más de trabajo podría hacer la araña
> que se descarga los datos y no necesitar del wget o httrack. Cosa que
> nos ahorraria tiempo, porque la araña saca los links y luego yo los
> tengo que volver a sacar (se hace 2 veces el parseo). Por otro lado,
> haciendo la araña se pueden obtener más información de los enlaces:
> mime-type, si esta cacheado, ...

yo lo haria separado en dos pasos por la siguiente razon: porque tendremos 
que revisar exhaustivamente la lista de urls antes de extraer los links, por
ejemplo para el tema de los duplicados de idiomas que comentaba y otras
historias que puedan surgir.
por lo que creo que estaria bien que la primera parte hacerla con httrack
y la segunda con tu araña, parece que httrack trabaja bien y tiene un
monton de parametros para filtrados. ademas piensa que ejecutaremos httrack
desde dentro de sindominio. habria que revisar de todas formas que
httrack extraiga correctamente todas las urls, paso un log que hice de prueba 
para todos los directorios a partir de sindominio.net/autonomia_situada:

http://www.sindominio.net/autonomia_situada/lista.txt
(dentro del log, los que llevan http:// son los links buenos)


-- 
Lluis & Pere Rocallaura
=================================================================
Antaviana		:: http://antaviana.net
Astramat		:: http://astramat.com/c/alife.html
Autonomia Situada	:: http://sindominio.net/autonomiasituada
=================================================================






More information about the Grey-Walter mailing list