JT97. Grupo de Trabajo iris-index

Reunión de Trabajo RTIRIS-4 en Zaragoza

Introducción
Orden del día
Transparencias de la reunión

Introducción

El pasado día 17/11/97 de 11:30 a 13:30 tuvo lugar la reunión del grupo de trabajo iris-index en dentro de las Jornadas Técnicas de RedIRIS 1997 en Zaragoza.

Esta información es un pequeño resumen de lo que estuvimos comentando allí. Si alguien recuerda algo que no aparece y desea que lo incorporemos que nos lo comente.

Orden del día

Repaso de las actividades realizadas en el grupo iris-index
Metainformación, formatos de metainformación
Herramientas de generación de metainformación
Actividades restantes en el grupo iris-index
Proyectos relacionados con iris-index

Repaso de las actividades realizadas en el grupo iris-index

Fase 1. Objetivos

Los objetivos concretos del grupo de trabajo se encuentran en las páginas del grupo.

Elección de centros participantes
Software a usar
Información a indexar
Estructura del sistema
- Varios centros recolectan la información de sus servidores con Harvest, como ya estaban haciendo
- Exportan esa información, previamente indexada, a un nodo en un nivel superior en la jerarquía (en RedIRIS)
- Se crea un punto de consulta al sistema en RedIRIS

Fase 1. Resultados Obtenidos

Problemas

Posibles Soluciones

Modificar los ficheros:

`HTML.Sum.tbl`	Para indicar que se indexen sólo las palabras del título y las cadenas de la metainformación
`RunGatherer`	Para indicar que se indexen los caracteres castellanos
`RunBroker`	Para indicar que se indexen los caracteres castellanos

Incorporar metainformación

Fase 2. Espansión otro nivel

Tomamos la segunda opción haciendo que un centro que antes indexaba su propio servidor generase un índice de su servidor y de la información indexada de otro servidor

Fase 2. Resultados

Hemos tenido escasa participación para centros en estos nuevos niveles.

Dejamos por el momento la expansión en niveles mayores y el análisis del rendimiento del sistema para pasar a tratarel tema de la información que vamos a indexar.

Fase 3. Metainformación

En esta fase hemos de decidir qué tipo de metainformación vamos a usar y estamos en el desarrollo de una herramienta que introduzca esta metainformación en las páginas de la manera más automática que podamos.

En la reunión se opta por usar el conjunto de metainformación de la Universidad de Dublin (Dublin Core)

Metainformación, formatos de metainformación

Metainformación. Dublin Core

Minimalista
Se basa en usar los 15 elementos que define el Dublin Core
Estructuralista
Se basa en asignar unas cualificaciones a esos elementos.
Podemos refinar el significado de un campo
Ej: para refinar el campo autor
<meta name="DC.Creator.PersonalName" content="Javier Masa">
Podemos explicar el significado del valor contenido en el campo
Ej: para indicar el formato en el que especificamos el lenguaje de un documento
<meta name="DC.Language" scheme="RFC1766" content="es">

Sería conveniente usar la aproximación minimalista con estos elementos:

1	DC.title	El nombre que el creador le ha dado al recurso
2	DC.creator	La persona o la organización responsable de la creación del recurso
3	DC.subject	Las palabras clave con las que podríamos describir el recurso
4	DC.description	Un texto que describe el contenido del recurso. En el caso en que exista un abstract, el abstract
5	DC.publisher	La entidad responsable de hacer que el recurso esté disponible en la red
6	DC.contributor	Personas y Organizaciones que han participado en la creación del recursos sin que sean los autores
7	DC.date	Fecha en que el recurso se puso en su forma actual
8	DC.type	Categoría del recurso. Por ejemplo. Home page, novela, poema, ...
9	DC.format	Se usa para identificar el sofware y el hardware necesario para ver el recurso y trabajar con él.
10	DC.identifier	Cadena destinada a identificar unívocamente al recurso. Por ejemplo ISBN, URL, ...
11	DC.source	Cadena destinada a identificar unívocamente al trabajo de donde el recurso ha sido obtenido
12	DC.language	Idioma en el que está escrito el recurso
13	DC.relation	Relaciones que este recurso tiene con otros recursos. Por ejemplo imágenes de un libro, capítulos de un libro, ...
14	DC.coverage	Característica espacio/temporal del recurso. Está aún en desarrollo
15	DC.rights	Copyright del recurso

Alguno de los elementos tendremos que expandirlos usando la aproximación estructuralista

Herramientas de generación de metainformación

Para abordar este tema estuvimos analizando las diferentes formas que un usuario tiene para generar un documento HTML.

Usar un editor WYSIWYG
Usar editores de texto con posibilidad de salvar a HTML
Usar un editor convencional y escribir código HTML a mano

Necesitamos una herramienta que permita ser usada por el administrador del servidor y por el usuario que genera el documento:

Ha de usar una plantilla con información corporativa e introduzcir dicha metainformación en los documentos de una manera automática.
Para la información particular de cada página (ej. las claves) sería interesante una herramienta que se recorriese un árbol de directorios y fuese preguntando dicha información para cada documento.

RedIRIS ha desarrollado MetaWebber para el grupo de trabajo y puede servirnos para incluir la metainformación corportiva en los documentos

MetaWebber

MetaWebber introduce metainformación en las páginas y no modifica la apariencia de la misma. La metainformación que introduce es de este tipo:

<meta name="description"  content="Primera actividad del GT iris-index">
<meta name="date"         content="19970724">
<meta name="expires"      content="19971230">
<meta name="reply to"     content="masa@rediris.es">
<meta name="organization" content="Centro de Comunicaciones CSIC RedIRIS">
<meta name="locality"     content="Madrid, España">
<meta name="author"       content="Web-index-Master">
<meta name="keywords"     content="RedIRIS, indexación, index">
<meta name="lang"         content="es">

Después de la reunión hemos de modificar MetaWebber para que genere las páginas de una forma parecida a esta:

<meta name="DC.Title"  
      content="Actividad 1">
<meta name="DC.Description"  
      content="Primera actividad del GT iris-index">
<meta name="DC.Date" scheme="ANSI.X3.30-1985"
      content="19970724">
<meta name="DC.Publisher"
      content="Centro de Comunicaciones CSIC RedIRIS">
<meta name="DC.Creator.PersonalName" 
      content="Web-index-Master">
<meta name="DC.Creator.Address"
      content="webmaster@rediris.es">
<meta name="DC.Subject"
      content="RedIRIS, indexación, index">
<meta name="DC.Language" scheme="RFC1766"
      content="es">

Hemos de ponernos de acuerdo en todos los metas que vamos a usar.

Actividades restantes en el grupo iris-index

Decidir el conjunto de los metadata de DC que vamos a usar
Software
- Kits con binarios de Harvest para diversas plataformas
- Actualizar MetaWebber al conjunto final de metadatas de DC
- Aplicación que permita introducir las claves de un documento de forma interactiva
- Herramienta que genere SOIF directamente a partir de la página (si se puede)
Documentación
- Documentación para la configuración de Harvest con los resultados del grupo de trabajo iris-index
- Normativa de publicación para la inclusión de metainformación en la páginas web de la RedIRIS y en la jerarquía de indexación

Proyectos relacionados con iris-index

TF-CHIC

JEN8

Allí se presentó la versión 1.5 de Harvest que ha sido desarrollada por la Universidad de Edimburgo.

Uno de los problemas por lo que ha surgido el grupo iris-index es por la necesidad de hacer que los robots no indexen nuestros servidores de la forma que lo hacen. Se ha desarrollado un script llamado BotWatch que permite obtener una lista de los robots que entran en nuestros servidores y de la cantidad de información que se llevan. Sería interesante que empezasemos a usarlo para ver el tanto por ciento de tráfico debido a los robots

Transparencias de la reunión

Podéis ver las transparencias que se presentaron en la reunión en los siguientes formatos:

PowerPoint 97 - 1021952 bytes
PowerPoint 95 - 916992 bytes
PowerPoint 4.0 - 846848 bytes