JT97. Grupo de Trabajo iris-index


Reunión de Trabajo RTIRIS-4 en Zaragoza

Introducción


El pasado día 17/11/97 de 11:30 a 13:30 tuvo lugar la reunión del grupo de trabajo iris-index en dentro de las Jornadas Técnicas de RedIRIS 1997 en Zaragoza.

Esta información es un pequeño resumen de lo que estuvimos comentando allí. Si alguien recuerda algo que no aparece y desea que lo incorporemos que nos lo comente.

Orden del día


Repaso de las actividades realizadas en el grupo iris-index


  • Fase 1. Objetivos
      Dada la proliferación de los buscadores que se dedican a indexar todos nuestros servidores y dada la carga que soportamos decidimos crear una estructura en la que cada centro indexase su información, se la exportase a otros centros y estos a su vez generasen sus índices. De esta forma evitamos que entren en nuestras máquinas a llevarse TODA la información.

      Los objetivos concretos del grupo de trabajo se encuentran en las páginas del grupo.

    • Elección de centros participantes

        Se apuntaron varios centros para participar pero sólo cinco lo han hecho activamente.

    • Software a usar

        Necesitabamos un software que tuviese estas características:

        • Usado en nuestro entorno para indexar los servidores
        • Que permita intercambiar la información indexada
        • Que sea de dominio público

        El software que cumple estos requisitos es Harvest. Inicialmente se está usando la versión 1.4 pero se cambia muy pronto a la versión 1.5

    • Información a indexar

        En principio no nos interesa el tipo ni la cantidad de la información a indexar ya que lo que queremos es probar la jerarquía de intercambio de la información.

        Lo que hemos hecho ha sido crear una serie de páginas con poca información en cada uno de los servidores participantes

    • Estructura del sistema

        Se ha creado una estructura simple.

      • Varios centros recolectan la información de sus servidores con Harvest, como ya estaban haciendo
      • Exportan esa información, previamente indexada, a un nodo en un nivel superior en la jerarquía (en RedIRIS)
      • Se crea un punto de consulta al sistema en RedIRIS

  • Fase 1. Resultados Obtenidos

    • Problemas

        Se han dado una serie de problemas como:

        • Los índices que se han generado han sido muy grandes debido a que se indexa todo el texto, o todas las palabras en negritas o con <H*>, ...
        • La información que contenían estos índices era diversa
        • No se han indexado correctamente las páginas que contienen caracteres nacionales como "ñ", "á","é","í","ó","ú", ...
        • Falta metainformación en muchas de las páginas

    • Posibles Soluciones

      • Modificar los ficheros:

        HTML.Sum.tblPara indicar que se indexen sólo las palabras del título y las cadenas de la metainformación
        RunGathererPara indicar que se indexen los caracteres castellanos
        RunBrokerPara indicar que se indexen los caracteres castellanos

      • Incorporar metainformación

  • Fase 2. Espansión otro nivel
      Una vez que hemos visto que la estructura anterior funciona decidimos ampliarla. Teníamos dos opciones, ampliar con información o con más nodos en la estructura.

      Tomamos la segunda opción haciendo que un centro que antes indexaba su propio servidor generase un índice de su servidor y de la información indexada de otro servidor

  • Fase 2. Resultados
      Las consultas desde el nivel superior han sido satisfactorias por lo que vemos que se puede expandir la estructura con varios niveles más.

      Hemos tenido escasa participación para centros en estos nuevos niveles.

      Dejamos por el momento la expansión en niveles mayores y el análisis del rendimiento del sistema para pasar a tratarel tema de la información que vamos a indexar.

  • Fase 3. Metainformación
      Una vez que hemos pasado las fases anteriores nos damos cuenta que lo más lógico para conseguir nuestros objetivos es usar metainformación.

      En esta fase hemos de decidir qué tipo de metainformación vamos a usar y estamos en el desarrollo de una herramienta que introduzca esta metainformación en las páginas de la manera más automática que podamos.

      En la reunión se opta por usar el conjunto de metainformación de la Universidad de Dublin (Dublin Core)

    Metainformación, formatos de metainformación


  • Metainformación. Dublin Core
      El conjunto de metadatas de Dublin Core puede usarse basandose en dos aproximaciones:

      • Minimalista
        Se basa en usar los 15 elementos que define el Dublin Core

      • Estructuralista
        Se basa en asignar unas cualificaciones a esos elementos.

        Podemos refinar el significado de un campo
        Ej: para refinar el campo autor
        <meta name="DC.Creator.PersonalName" content="Javier Masa">

        Podemos explicar el significado del valor contenido en el campo
        Ej: para indicar el formato en el que especificamos el lenguaje de un documento
        <meta name="DC.Language" scheme="RFC1766" content="es">

      Sería conveniente usar la aproximación minimalista con estos elementos:

      1 DC.title El nombre que el creador le ha dado al recurso
      2 DC.creator La persona o la organización responsable de la creación del recurso
      3 DC.subject Las palabras clave con las que podríamos describir el recurso
      4 DC.description Un texto que describe el contenido del recurso. En el caso en que exista un abstract, el abstract
      5 DC.publisher La entidad responsable de hacer que el recurso esté disponible en la red
      6 DC.contributor Personas y Organizaciones que han participado en la creación del recursos sin que sean los autores
      7 DC.date Fecha en que el recurso se puso en su forma actual
      8 DC.type Categoría del recurso. Por ejemplo. Home page, novela, poema, ...
      9 DC.format Se usa para identificar el sofware y el hardware necesario para ver el recurso y trabajar con él.
      10 DC.identifier Cadena destinada a identificar unívocamente al recurso. Por ejemplo ISBN, URL, ...
      11 DC.source Cadena destinada a identificar unívocamente al trabajo de donde el recurso ha sido obtenido
      12 DC.language Idioma en el que está escrito el recurso
      13 DC.relation Relaciones que este recurso tiene con otros recursos. Por ejemplo imágenes de un libro, capítulos de un libro, ...
      14 DC.coverage Característica espacio/temporal del recurso. Está aún en desarrollo
      15 DC.rights Copyright del recurso

      Alguno de los elementos tendremos que expandirlos usando la aproximación estructuralista

    Herramientas de generación de metainformación


      Para abordar este tema estuvimos analizando las diferentes formas que un usuario tiene para generar un documento HTML.

      • Usar un editor WYSIWYG
      • Usar editores de texto con posibilidad de salvar a HTML
      • Usar un editor convencional y escribir código HTML a mano

      Necesitamos una herramienta que permita ser usada por el administrador del servidor y por el usuario que genera el documento:

      • Ha de usar una plantilla con información corporativa e introduzcir dicha metainformación en los documentos de una manera automática.
      • Para la información particular de cada página (ej. las claves) sería interesante una herramienta que se recorriese un árbol de directorios y fuese preguntando dicha información para cada documento.

      RedIRIS ha desarrollado MetaWebber para el grupo de trabajo y puede servirnos para incluir la metainformación corportiva en los documentos

    • MetaWebber

      MetaWebber introduce metainformación en las páginas y no modifica la apariencia de la misma. La metainformación que introduce es de este tipo:

      <meta name="description"  content="Primera actividad del GT iris-index">
      <meta name="date"         content="19970724">
      <meta name="expires"      content="19971230">
      <meta name="reply to"     content="masa@rediris.es">
      <meta name="organization" content="Centro de Comunicaciones CSIC RedIRIS">
      <meta name="locality"     content="Madrid, España">
      <meta name="author"       content="Web-index-Master">
      <meta name="keywords"     content="RedIRIS, indexación, index">
      <meta name="lang"         content="es">
      

      Después de la reunión hemos de modificar MetaWebber para que genere las páginas de una forma parecida a esta:

      <meta name="DC.Title"  
            content="Actividad 1">
      <meta name="DC.Description"  
            content="Primera actividad del GT iris-index">
      <meta name="DC.Date" scheme="ANSI.X3.30-1985"
            content="19970724">
      <meta name="DC.Publisher"
            content="Centro de Comunicaciones CSIC RedIRIS">
      <meta name="DC.Creator.PersonalName" 
            content="Web-index-Master">
      <meta name="DC.Creator.Address"
            content="webmaster@rediris.es">
      <meta name="DC.Subject"
            content="RedIRIS, indexación, index">
      <meta name="DC.Language" scheme="RFC1766"
            content="es">
      

      Hemos de ponernos de acuerdo en todos los metas que vamos a usar.

    Actividades restantes en el grupo iris-index


      Al final de la reunión quedan claras las siguientes actividades:

      • Decidir el conjunto de los metadata de DC que vamos a usar
      • Software
        • Kits con binarios de Harvest para diversas plataformas
        • Actualizar MetaWebber al conjunto final de metadatas de DC
        • Aplicación que permita introducir las claves de un documento de forma interactiva
        • Herramienta que genere SOIF directamente a partir de la página (si se puede)
      • Documentación
        • Documentación para la configuración de Harvest con los resultados del grupo de trabajo iris-index
        • Normativa de publicación para la inclusión de metainformación en la páginas web de la RedIRIS y en la jerarquía de indexación

    Proyectos relacionados con iris-index


      RedIRIS ha estado presente en la reunión del grupo de trabajo TF-CHIC en Mayo dentro del JEN8 y comentamos varios de los problemas con los que nos encontramos en nuestro grupo de trabajo.

      Allí se presentó la versión 1.5 de Harvest que ha sido desarrollada por la Universidad de Edimburgo.

      Uno de los problemas por lo que ha surgido el grupo iris-index es por la necesidad de hacer que los robots no indexen nuestros servidores de la forma que lo hacen. Se ha desarrollado un script llamado BotWatch que permite obtener una lista de los robots que entran en nuestros servidores y de la cantidad de información que se llevan. Sería interesante que empezasemos a usarlo para ver el tanto por ciento de tráfico debido a los robots

    Transparencias de la reunión


    Podéis ver las transparencias que se presentaron en la reunión en los siguientes formatos: