[Grey-Walter] algunos comentarios

Bruja Averia tren_averia at lycos.es
Fri Jan 16 23:33:00 CET 2004


Hola, escribo (soy Pablo) para decir que se me ha roto la máquina asi que veo difícil lo de trabajar al día en esto
hasta que no me compre una máquina nueva.
Contesto aquí a todos los mensajes que he visto desde, más o menos, el principio de las navidades. Espero que
saquéis algo en claro

-----------------------------
>Una vez hecha la introducción ya puedo lanzar unas preguntas al aire.
>¿Me interesa conocer todos los enlaces o solo htmls? ¿Me interesa saber
>el mime-type de los ficheros de los enlaces?

De momento yo creo que nos limitaremos a procesar HTMLs y similares, para lo que sí necesitaríamos conocer el MIME-Type

>Me he dado cuenta que con un poco más de trabajo podría hacer la araña
>que se descarga los datos y no necesitar del wget o httrack.

La cosa se complica cuando los links que obtienes son relativos, están incompletos, peor desde luego se puede hacer

>¿qué datos nos interesa obtener?
hummm...

¿Algún libro para aprender python (o tutorial o algo por el estilo) que hayas leído?

Por lo que veo creo que trabajaremos con httrack nop?

>Con visone se usan matrices del tipo
>    a b c d...
>a   x x x x
>b   x x x x
>...

¿y esto cómo se come? ¿si a tiene un enlace con b se pone un 1 en la posición (1,2) y si no un 0? Esto me recuerda
a 2 páginas que vienen en mi libro de matemáticas (el de clase) y que hablan sobre las matrices y la teoría de
grafos y las cadenas de markov.
¿Qué me comentáis de esto (t. de grafos y cad. de markov)? Cuando consiga hacerme con un escáner subiré las 2
páginas adonde pueda

>- Todo sindominio.net es representado por un nodo y cada uno de los
>servidores externos como otros. (Grano grueso pero más manejable)
>- Todo sindominio.net es representado por un nodo y cada pagina externa
>como otro nodo.
>- Cada pagina con enlaces al exterior de sindominio.net como un nodo y
>cada dominio del exterior como un nodo
>- Cada pagina con enlaces al exterior de sindominio.net como un nodo y
>cada pagina enlazada del exterior como otro nodo (Grano fino pero
>muchisimos datos dificiles de manejar)
>- Cada pagina de subdominio con o sin enlaces al exterior como un nodo y
>cada pagina del exterior como otro nodo. (El grano más fino con el que
>se puede estudiar el sistema, pero tan fino que no creo que se pudiera
>procesar en un tiempo razonable los datos)

>[...]

>¿Hay alguna forma de tener un diagrama jerquico con nodos compuestos por
>otros nodos? Porque supongo que sería la forma optima de tener toda la
>información sin perderse en ella.

Decíamos que un grupo se define por la cohesión interna, por el número de enlaces que sus miembros tienen hacia
otros miembros del mismo grupo.
Podríamos tratar de medir la densidad de intraenlaces y fijar el concepto de grupo a un determinado nivel de
densidad de intraenlaces (tal nivel o superior). A la hora de dibujar deberíamos de tener en cuento esta densidad
para, por ejemplo, calcular la distancia a la que se van a poner unos nodos de otros (aunque así me temo que vamos
a tener que utilizar más de 2 dimensiones, o quizá dimensiones fraccionarias, ¿cómo se representa un espacio de 4
dimensiones? ¿proyecciones?). ¿Qué opináis?

>¿que es un nodo y como
>agrupar paginas en un nodo bajo criterios objetivos?
Aparte de utilizar el criterio de la densidad que comentaba un párrafo antes (ya me diréis qué pensáis) se podría
tratar de sacar el significado del texto (las keywords, o mejor algo más) y según el significado de la otra página
(la enlazante) valorar la semejanza. Por último se compaginarían los dos índices (el de semejanza de contenido y el
de la densidad) para sacar un enlace que, teóricamente, debería de valorar adecuadamente las páginas entre sí para
así poder clasificarlas como de la misma web o de otra web.
Creo que lo estoy liando un poco

>Respecto a la definición de nodo dentro de sindominio creo que la
>propuesta de Lluis (nodos son las carpetas que cuelgue directamente de
>sindominio.net/*) es perfecta. 
Para sindominio sí, pero no debemos [creo] limitarnos a sindominio. Mi idea es hacer un sistema que valga para
cualquier tipo de estudio sobre los enlaces de la web, ya sean activistas o no, ya sean de sindominio.net, de
indymedia.org, blogalia.com o barrapunto.com, por poner unos ejemplos.
-----------------------


Hasta pronto

P.D.:He visto un libro nuevo "A la sombra de Darwin"
(http://www.casadellibro.com/fichas/fichabiblio/0,1094,2900000957342,00.html), ¿lo habéis leído?

_________________________________________________________
Envia tus postales desde Lycos Postales. Envía la tuya desde http://postales.lycos.es




More information about the Grey-Walter mailing list