[Grey-Walter] [ toppac ] primer escaneo listo

Lluis lluis at antaviana.net
Sun Jan 4 11:32:46 CET 2004


Hola a todos,

para que la cosa no se quede parada, he decidido darle un empujon
al proyecto y he hecho el primer escaneo de todo el servidor, con 
un resultado de 75.000(!) paginas escaneadas. Y aun faltan
muchas paginas por escanear. Es impresionante darse una vuelta
por este inmenso ecosistema digital activista!
Lo primero que hecho es empezar a hacer una lista de los nodos a 
partir de los logs y la pagina de colectivos de SD.
La idea es que tengamos una lista de que consideramos como nodos
y a que carpeta corresponden, de forma que toda pagina que este
bajo esa carpeta formara parte de ese nodo.
Por otra parte he puesto una serie de campos adicionales, como
"tipologia de nodos", con un esbozo de lo que podria ser la
clasificacion taxonomica de estos nodos. O "Scan", para excluir
aquellos nodos que los registramos como tales pero no los vamos
a escanear(correo, indy acp...)
Esta BBDD de nodos nos puede servir de base para todo el proyecto
y analisis de todo tipo.

el listado de los nodos y el log importado en oppenoffice lo teneis
aqui:
http://sindominio.net/autonomiasituada/proyectos/toppac/

con esto tenemos material de trabajo para un monton de dias.
La lista de cosas a hacer, un poco por prioridades es la siguiente:

* Pensar bien el tema de la Tipología de nodos y que campos adicionales
ponemos en la BBDD de nodos que nos puedan ser utiles. 
* Elaborar la lista completa de nodos, a partir de los logs o bien
mirando directamente la web de SD, etc.. el caso es completarla,
siguiendo el criterio de nodo que hayamos establecido.
* Resolver las incidencias que han aparecido durante el escaneo y como
nos afectan
	* hacer lista de incidencias (mas abajo apunto algunas ya que he visto)
	* discutir y resolver incidencias
* Elaborar una lista de las webs que faltan por escanear integral o
parcialmente
* A partir de la lista de las webs que faltan por escanear
	* probar de hacer escaneos para conseguirlas (si los escaneos son
	grandes habria que pensar de hacerlos en las maquinas de SD)
	* las que no se consigan, conseguirlas por otros medios o añadirlas
manualmente si lo consideramos necesario
* Tunning de lista de paginas a extraer los links
	* repasar la lista y realizar comprovaciones de que todos los pasos
anteriores se han completado correctamente
	* preparacion de lista para realizar extraccion de links
	* preparacion de programa de extraccion de links
	* preparacion de lista obtenida para su importacion en Visone
	* ...

quien se apunte a currar en alguno de estos temas que lo diga y miramos
entre todos como nos coordinamos para repartirnos las tareas. venga
chicos que esto va ser un estudio pionero en el mundo activista! :)

-----------------------------------------------------------------------
-------------------------------------------------------


### algunas incidencias asi a bote pronto

-----------------------------------------------------------------------
-------------------------------------------------------
* URLs duplicadas en aplicativos de wiki

/~davib/index.pl?action=browse&diff=1&id=Comparativa_De_Plataformas_De_
Soporte_A_Comunidades_Virtuales
/~davib/index.pl?action=browse&diff=1&id=Comparativa_De_Plataformas_De_
Soporte_A_Comunidades_Virtuales&diffrevision=1
/~davib/index.pl?action=edit&id=Comparativa_De_Plataformas_De_Soporte_A
_Comunidades_Virtuales

-todas las url's con ?action=edit directamente se podrian eliminar de la
lista, etc..

-----------------------------------------------------------------------
-------------------------------------------------------

* Escaneo incompleto de una web
-En la página personal Xabier, solo ha escaneado un archivo
www.sindominio.net/~xabier/textos/adt/adt.html
-----------------------------------------------------------------------
-------------------------------------------------------

* Aplicativos de Calendario - dias vacios
http://www.sindominio.net/laboratorio/labExilio/agenda/calendar.php?month=2&year=1954

-----------------------------------------------------------------------
-------------------------------------------------------

* Paginas escaneadas con un status de OK que vuelve un "not found" en el
navegador

p.ej. todo el directorio /boicot/ de http://www.sindominio.net/afe/
página. ej. http://www.sindominio.net/afe/boicot/actionday.htm

-----------------------------------------------------------------------
-------------------------------------------------------

* El grano más fino. Desglose de nodos en nodos más pequeños:
p.ej.
/fiambrera/web-agencias?


-- 
Lluis & Pere Rocallaura
=================================================================
Antaviana		:: http://antaviana.net
Astramat		:: http://astramat.com/c/alife.html
Autonomia Situada	:: http://sindominio.net/autonomiasituada
=================================================================






More information about the Grey-Walter mailing list