Resumen de la reunión iris-search - Madrid 07/05/1998 Consejo Superior de Investigaciones Cientificas Salón Jorge Manrique =============================================================================== Listado de Asistentes =============================================================================== Nombre Organizacion e-mail ------------------------------------------------------------------------------ Alejandro Redondo Escobar ALCALA alejandro.redondo@alcala.es Asuncion Lopez Beltran ALCALA asun.lopez@comunic.alcala.es Rosario Izquierdo CEDEX charo@cedex.es J. M. Sanchez Bretones CICA breton@cica.es Javier Garces Asensio EHU lgsgaasj@lg.ehu.es Alfonso Jimenez Cantos GVA ajimenez@cap.gva.es Inma Sanchez Plaza GVA inma@gva.es (otra persona) GVA (otra persona)@gva.es Manuel Gonzalez Senent GVA mgonzalez@gva.es Javier Massa REDIRIS javier.masa@rediris.es Oscar Gonzalez Garcia UAB oscar.gonzalez@uab.es Juan Antonio Martinez Carrascal UAB JoanAntoni.martinez@uab.es Nicolas Velazquez Campoy UAM nicolas.velazquez@uam.es Antonio Benitez Olmo UCA x500@uca.es Manuel Hernandez Urrea UCM chisco@gac.ucm.es Alfonso Lopez Murcia UM alfonso@fcu.um.es Francisco J. Garcia Bolao UNAV kgarcia@unav.es Irene Gutierrez UNICAN x500@unican.es, gutierri@cc.unican.es Begoña Garcia Florez UNILEON bego@unileon.es Loreto Plana Galiano UNIZAR loreto@posta.unizar.es Eulalia Capote UPM lali@ccupm.upm.es Jesus Encabo UPM jesus@ccupm.upm.es Ana Rodriguez Mazkiaran UPNA arm@upna.es Vicent Benet Gilaber UPV vbenet@cc.upv.es Antonio Perez Casas USC sranpeca@usc.es La dirección de Asunción López parece que no es esta: asun.lopez@comunic.alcala.es Por favor si alguien conoce la correcta que me la diga =============================================================================== Indice de la reunión =============================================================================== Parte I 1. Cambios en el directorio para el soporte de búsquedas integradas mediante LDAP 1.1 El cliente realiza la búsqueda 1.2 Búsqueda en una organización que mantiene alias a todas las organizaciones de c=ES 1.3 Búsquedas en un servidor que mantiene una réplica de todas las entradas de c=ES 2. Otras Opciones 2.1 Servicio Piloto NameFLOW LDAP 2.2 Red de Servidores Whois++ 3. Herramientas y Software 3.1 Net_LDAPapi-1.40 3.2 Web500gw-2.1b2 3.3 Digger 2.0 3.4 IC-4.0 Parte II 1. Metainformación 1.1 Posibilidades de inclusión de la metainformación a usar en HTML 1.2 Herramientas 2. Piloto de indexación real 3. Otras Opciones 4. Herramientas 4.1 Desarrolladas en iris-index 4.2 Otras =============================================================================== Parte I =============================================================================== 1. Cambios en el directorio para el soporte de búsquedas integradas mediante LDAP ------------------------------------------------------------------- A menudo tenemos la necesidad de realizar búsquedas de datos de personas en el directorio y no conocemos la ubicación física de la misma. Sería interesante poder realizar búsquedas a nivel c=ES. Se barajaron 3 posibilidades: 1.1 El cliente realiza la búsqueda El proceso sería el siguiente: - El cliente se conecta [IRIS-SEARCH-9805-01] al servidor - Lee todas las organizaciones de c=ES - Busca en cada organización conectandose a los DSAs que las mantienen - Ordena los resultados que éstos le envían - Los muestra al usuario Solo tenemos un cliente que realice esta tarea. Es el programa "de" que se ejecuta desde la cuenta "directorio". 1.2 Búsqueda en una organización que mantiene alias a todas las organizaciones de c=ES Crearemos una organización, c=ES@o=alias por ejemplo, que contendrá alias a todas las organizaciones de c=ES. Cuando alguien realice una búsqueda bajo esta organización se realizarán búsquedas en todos los DSAs. 1.3 Búsquedas en un servidor que mantiene una réplica de todas las entradas de c=ES [IRIS-SEARCH-9805-02] Crearemos un servidor LDAP que mantenga la misma estructura de datos que existe en c=ES, aunque menos atributos. Se copiarán periodicamente los datos de todos los DSAs de España en ese servidor LDAP utilizando algún mecanismo [IRIS-SEARCH-9805-03] de réplica. Las búsquedas las realizaremos sobre este servidor LDAP 2. Otras Opciones ----------------- 2.1 Servicio Piloto NameFLOW LDAP Debido a los problemas del software X.500 versión 1993 se ha decidio realizar un piloto de directorio basado en servidores LDAP. Los objetivos son: - Evolucionar hacia una arquitectura basada en productos baratos, abierto, fáciles de manejar, de ampliar, etc. - Proporcionar índices de la información que contiene el directorio para agilizar las búsquedas - Proporcionar compatibilidad con las versiones Quipu (88) si fuese necesario Vamos a necesitar robots LDAP que extraigan la información de estos índices generados en cada uno de los servidores LDAP y mecanimos para el intercambio e indexación de los mismos. 2.2 Red de Servidores Whois++ Otra posible opción será el paso a una estructura de servidores Whois++ Un servidor Whois++ se basa en una base de datos que está compuesta por una serie de plantillas estandarizadas de conjuntos ordenados de pares atributos-valor. Cada registro está estructurado dentro de una plantilla y tiene un identificador único. Cada servidor Whois++ necesita un identificador único en Internet. Cada servidor Whois++ extrae un índice o centroide de la información que contiene y genera una base de conocimiento que exportará a un servidor Whois++ que contiene índices. Una red de servidores Whois++ estará formada por servidores de base de datos que contienen las plantillas rellenas y por servidores de índices que contienen la base de conocimiento y punteros hacia otros servidores de índice o servidores de base de datos. Un servidor de índices puede tomar una pregunta realizada por un usuario y buscar en su colección de índices para determinar los servidores que mantienen registros que pueden coincidir con la pregunta. Una vez hecho esto puede notificar al cliente los siguientes servidores con los que ha de contactar para enviarles la pregunta. Se ha planteado montar un pequeño grupo de trabajo para probar una red de servidores Whois++ pero no ha salido nadie voluntario 3. Herramientas y Software -------------------------- 3.1 Net_LDAPapi-1.40 [IRIS-SEARCH-9805-04] Disponemos de una librería en Perl que nos permite acceder al directorio mediante LDAP. Uno de los ejemplos es una pasarela web-LDAP ftp://ftp.rediris.es/rediris/x500/software/unix/ldap/Net-LDAPapi-1.40.tar.gz 3.2 Web500gw-2.1b2 RedIRIS está colaborando con Frank Richter para modificar la pasarela web a LDAP y para la traducción de la misma [IRIS-SEARCH-9805-05]. Una de las tareas que pretende realizar es la modificación de la manera de llamar a la pasarela para que el URL sea de tal forma que un robot no pueda indexarlo y así hacer que no entren a indexar el directorio X.500 ftp://ftp.rediris.es/rediris/x500/software/unix/ldap/web500gw-2.1b2.tar.Z 3.3 Digger 2.0 Es el software que hemos usado para montar el servidor de prueba de Whois++ 3.4 IC-4.0 Tenemos la última versión del software de IC. En pocos días estará disponible para que todos los usuarios puedan llevarsela. Se ha decidido que se va a suministrar como un fichero tar comprimido y luego encriptado. La versión para Windows NT se pondrá en otro fichero tar. Los manuales se suministrarán en un fichero tar separado. =============================================================================== Parte II =============================================================================== 1. Metainformación ------------------ Se ha comentado el trabajo realizado en el grupo de trabajo para encontrar un conjunto de metas que nos definan los recursos que deseamos indexar. Vamos a usar los 15 elementos definidos por el grupo Dublin Core. Aunque estos 15 elementos admiten cualificadores no vamos a usarlos en un primer paso debido a que el software que usaremos para indexar (Harvest) no se encuentra totalmente preparado para ello y debido a que existe un grupo de trabajo tratando de estandarizar estos subelementos de cualificación. Hemos de generar un documento [IRIS-SEARCH-9805-06] en castellano donde se definan los 15 elementos. Una vez definido este documento lo registraremos en la organización Metadata.Net para que sirva como referencia para los autores de páginas en castellano. 1.1 Posibilidades de inclusión de la metainformación a usar en HTML Hemos analizado tres posibilidades y debido a los cambios producidos en las especificaciones de HTML4 tendremos que usar este formato: Hemos tenido que prescindir del elemento TYPE="xxx" ya que no se ha incorporado en el estandar HTML4. En su lugar se puede cualificar el nombre del meta añadiendo ".yyy" al elemento NAME. Ejemplo: Hemos quedado en no cualificar los elementos de Dublin Core ya que existe un grupo de trabajo tratando de estandarizar estos subelementos de cualificación. 1.2 Herramientas Con estos cambios queda claro que hemos de actualizar nuestras herramientas de ayuda para la inclusión de metainformación en las páginas. - Hemos de adaptar MetaWebber [IRIS-SEARCH-9805-07] a la nueva estructura de DC - Podemos utilizar herramientas que ayuden a la generación de la metainformación de forma automática http://www.rediris.es/si/iris-index/herramientas/#otros - Usar herramientas generadas en RedIRIS [IRIS-SEARCH-9805-08] para el volcado controlado de información en un servidor Web incorporando metainformación. Parece claro que para que lleguemos a buen fin no podemos estar cambiando de formato cada cierto tiempo. Decidimos quedarnos con los 15 metas de DC sin cualificar y no cambiaremos. 2. Piloto de indexación real ---------------------------- Una vez que tenemos definido el formato de metainformación vamos a realizar un piloto de indexación con información válida. [IRIS-SEARCH-9805-09] El objetivo principal es indexar información que posteriormente pueda ser encontrada con búsquedas por metainformación. Se indexará: - (RedIRIS) Páginas del registro de recursos de RedIRIS - listas de distribución - servidores web - bibliotecas - (Los centros participantes) Páginas del piloto iris-index - Usando metainformación en formato DC - Palabras entre y ............. durante un tiempo - Palabras entre y ....... durante un tiempo - (RedIRIS) Páginas de las Comunidades Virtuales de Usuario (CVU) - (CICA) Páginas de congresos del proyecto DisEven ?? - (RedIRIS) Entradas del Directorio X.500 ?? Se usará: - Herramientas que incorporen metainformación - Harvest 1.5 - Estructura jerárquica de servidores indexados - Un broker de consultas en RedIRIS Si estamos tratando una tesis doctoral puede ser interesante no indexar todas las páginas. Sólo indexaríamos el índice. De esta forma el usuario obtenedría como resultado el índice de la tesis y no el conjunto de las 500 páginas que la componen. 3. Otras Opciones ----------------- Terena ha creado un piloto de indexación en el que se plantean los mismos objetivos que nos hemos planteado nosotros. Información en: http://www.terena.nl/projects/chic-pilot/ Pretenden proporcionar calidad en las búsquedas usando EXCLUSIVAMENTE metainformación en las páginas. La estructura que se va a montar podrá redirigir las preguntas por la red de servidores indexados hacia los nodos que puedan contestar correctamente a dichas preguntas, es decir, se distribuye la información y se distribuyen las consultas de forma transparente. Para ello se crearán bases de conocimiento que permitan conocer qué servidor puede tener la respuesta a la consulta y protocolos de routing de consultas. 4. Herramientas --------------- 4.1 Desarrolladas en iris-index - MetaWebber - Herramientas para el volcado controlado en las CVUs - Brokerstats, para estadísticas de consulta a los brokers 4.2 Otras - Robot watcher, para generar estadísticas de tráfico producido por los robots en nuestros servidores 4.3 Necesarias Parece que se hace necesaria una herramienta que sea capaz de extraer la metainformación de tipo clave (DC.Subject) del texto de una forma casi automática =============================================================================== Sumario de Acciones =============================================================================== IRIS-SEARCH-9805-01: Probar si las búsquedas del programa "de" de la cuenta "directorio" de x500.rediris.es realiza las búsquedas potentes a nivel de España por protocolo LDAP o DAP IRIS-SEARCH-9805-02: Creacion de un pequeño piloto para probar un servidor LDAP con réplicas de la información de todos los DSAs de España. Participarán: cica, rediris, unican, upv, usc IRIS-SEARCH-9805-03: Mirar si el protocolo SLURPD puede servirnos para replicar la información de todos los servidores de España en el servidor que usemos para búsquedas bajo c=ES IRIS-SEARCH-9805-04: Mirar si la librería Net_LDAPapi-1.40 nos puede servir para realizar una aplicación que replique la información de un DSA en un servidor LDAP IRIS-SEARCH-9805-05: Traducción de los ficheros de la pasarela web500gw de la nueva version 2.1 al castellano. IRIS-SEARCH-9805-06: Generación o traducción al castellano del documento http://purl.org/metadata/dublin_core_elements IRIS-SEARCH-9805-07: Adaptar MetaWebber a la nueva estructura de elementos de Dublin Core IRIS-SEARCH-9805-08: Avisar de la disponibilidad de las herramientas usadas en las Comunidades Virtuales de Usario para el control del volcado de páginas en un servidor Web e inclusión de metainformación en formato DC. IRIS-SEARCH-9805-09: Piloto iris-index con información de calidad. Participarán: cica, gva, rediris