[Grey-Walter] [ toppac ] primer escaneo listo
xabier at sindominio.net
xabier at sindominio.net
Mon Jan 5 17:48:37 CET 2004
Saludos a tod*s después de una larga temporada ausente de la lista. La
verdad es que tengo un montón de mails para contestar en Grey-Walter pero
antes de que el trabajo retrasado me bloquee del todo me he animado a
contestar este mail, a pesar de que ahroa estoy fuera de casa y tengo que
contestar el correo via web desde un ordenador ajeno (con lo que dejaré
cosillas para otro momento).
Lo primero felicitar a todos los que habéis hecho avanzar el proyecto
topact y ... joder que de dificultades en el camino. Y qué interesantes!!!
Respecto a la definición de nodo dentro de sindominio creo que la
propuesta de Lluis (nodos son las carpetas que cuelgue directamente de
sindominio.net/*) es perfecta. De hecho desde mi conocimiento del
funcionamiento interno de SD es realmente así como debería de ser.
Propongo para un primer barrido quitar las páginas personales de usuarios
de sindominio (todo lo que empiece por sindominio.net/~*). Aún así me
consta que hay usuarios que no han creado un alias y su url no incluye la
pestaña (~), así que habrá que quitarlos a mano. El caso de
fiambrera/web_agencias que menciona Lluis es complicado porque las
agencias tienen su propia web en sindominio y el hecho de que fiambrera lo
presente como un subnodo es una contingencia histórica (y un lio
político-personal bastante gordo por otro lado). En general si un
colectivo tiene una página albergada en sd tiene su propio directorio.
Creo que el criterio de Lluis sigue siendo el mejor que tenemos, aunque
sería deseable conseguir elaborar un algoritmo que se capaz de localizar
nodos independientemente del conocimiento previo que tengamos del servidor
(pero esto es otra historia).
Por otro lado podríamos hacer un listado de cosillas que no queremos que
la araña pesque en una web php, que son generalmente más complejas que las
las estáticas tradicionales. Todos los enlaces a acciones php deberían
desconsiderarse, y las agendas también porque no creo que descubran
elementos topológicos interesantes.
Bueno por ahora no me da para más comentarios o sugerencias porque
previamente tengo que hecharle un buen vistazo a los archivos que ha
colgado Lluis.
Un abrazo y nos leemos,
Xabier
Lluis dijo:
> Hola a todos,
>
> para que la cosa no se quede parada, he decidido darle un empujon
> al proyecto y he hecho el primer escaneo de todo el servidor, con
> un resultado de 75.000(!) paginas escaneadas. Y aun faltan
> muchas paginas por escanear. Es impresionante darse una vuelta
> por este inmenso ecosistema digital activista!
> Lo primero que hecho es empezar a hacer una lista de los nodos a
> partir de los logs y la pagina de colectivos de SD.
> La idea es que tengamos una lista de que consideramos como nodos
> y a que carpeta corresponden, de forma que toda pagina que este
> bajo esa carpeta formara parte de ese nodo.
> Por otra parte he puesto una serie de campos adicionales, como
> "tipologia de nodos", con un esbozo de lo que podria ser la
> clasificacion taxonomica de estos nodos. O "Scan", para excluir
> aquellos nodos que los registramos como tales pero no los vamos
> a escanear(correo, indy acp...)
> Esta BBDD de nodos nos puede servir de base para todo el proyecto
> y analisis de todo tipo.
>
> el listado de los nodos y el log importado en oppenoffice lo teneis
> aqui:
> http://sindominio.net/autonomiasituada/proyectos/toppac/
>
> con esto tenemos material de trabajo para un monton de dias.
> La lista de cosas a hacer, un poco por prioridades es la siguiente:
>
> * Pensar bien el tema de la Tipología de nodos y que campos adicionales
> ponemos en la BBDD de nodos que nos puedan ser utiles.
> * Elaborar la lista completa de nodos, a partir de los logs o bien
> mirando directamente la web de SD, etc.. el caso es completarla,
> siguiendo el criterio de nodo que hayamos establecido.
> * Resolver las incidencias que han aparecido durante el escaneo y como
> nos afectan
> * hacer lista de incidencias (mas abajo apunto algunas ya que he visto)
> * discutir y resolver incidencias
> * Elaborar una lista de las webs que faltan por escanear integral o
> parcialmente
> * A partir de la lista de las webs que faltan por escanear
> * probar de hacer escaneos para conseguirlas (si los escaneos son
> grandes habria que pensar de hacerlos en las maquinas de SD)
> * las que no se consigan, conseguirlas por otros medios o añadirlas
> manualmente si lo consideramos necesario
> * Tunning de lista de paginas a extraer los links
> * repasar la lista y realizar comprovaciones de que todos los pasos
> anteriores se han completado correctamente
> * preparacion de lista para realizar extraccion de links
> * preparacion de programa de extraccion de links
> * preparacion de lista obtenida para su importacion en Visone
> * ...
>
> quien se apunte a currar en alguno de estos temas que lo diga y miramos
> entre todos como nos coordinamos para repartirnos las tareas. venga
> chicos que esto va ser un estudio pionero en el mundo activista! :)
>
> -----------------------------------------------------------------------
> -------------------------------------------------------
>
>
> ### algunas incidencias asi a bote pronto
>
> -----------------------------------------------------------------------
> -------------------------------------------------------
> * URLs duplicadas en aplicativos de wiki
>
> /~davib/index.pl?action=browse&diff=1&id=Comparativa_De_Plataformas_De_
> Soporte_A_Comunidades_Virtuales
> /~davib/index.pl?action=browse&diff=1&id=Comparativa_De_Plataformas_De_
> Soporte_A_Comunidades_Virtuales&diffrevision=1
> /~davib/index.pl?action=edit&id=Comparativa_De_Plataformas_De_Soporte_A
> _Comunidades_Virtuales
>
> -todas las url's con ?action=edit directamente se podrian eliminar de la
> lista, etc..
>
> -----------------------------------------------------------------------
> -------------------------------------------------------
>
> * Escaneo incompleto de una web
> -En la página personal Xabier, solo ha escaneado un archivo
> www.sindominio.net/~xabier/textos/adt/adt.html
> -----------------------------------------------------------------------
> -------------------------------------------------------
>
> * Aplicativos de Calendario - dias vacios
> http://www.sindominio.net/laboratorio/labExilio/agenda/calendar.php?month=2&year=1954
>
> -----------------------------------------------------------------------
> -------------------------------------------------------
>
> * Paginas escaneadas con un status de OK que vuelve un "not found" en el
> navegador
>
> p.ej. todo el directorio /boicot/ de http://www.sindominio.net/afe/
> página. ej. http://www.sindominio.net/afe/boicot/actionday.htm
>
> -----------------------------------------------------------------------
> -------------------------------------------------------
>
> * El grano más fino. Desglose de nodos en nodos más pequeños:
> p.ej.
> /fiambrera/web-agencias?
>
>
> --
> Lluis & Pere Rocallaura
> =================================================================
> Antaviana :: http://antaviana.net
> Astramat :: http://astramat.com/c/alife.html
> Autonomia Situada :: http://sindominio.net/autonomiasituada
> =================================================================
>
>
>
> _______________________________________________
> Grey-Walter mailing list
> Grey-Walter at listas.sindominio.net
> https://listas.sindominio.net/mailman/listinfo/grey-walter
>
--
"there is no need for fear or hope, but just to look for new weapons"
Gilles Deleuze
==================================================
Debian gnu/linux sid :: kernel 2.4.18
==================================================
xabier barandiaran www.sindominio.net/~xabier
Metabolik BioHacklab www.sindominio.net/metabolik
Grey-walter grey-walter at sindominio.net
==================================================
::: www.sindominio.net :::
==================================================
More information about the Grey-Walter
mailing list