Formato de la Metainformación


Mostramos en esta página un posible diseño del formato de metainformación que podemos usar en las páginas del grupo de trabajo. Está basado en Dublin Core.

Posibilidades

Partiendo del uso de metainformación en el formato Dublin Core Hemos analizado tres posibilidades distintas.

Mostramos un ejemplo para el meta Dc.Creator con las 3 posibilidades. Queremos indicar el nombre y la dirección de correo electrónico del autor de unas páginas web. Podíamos incluir el tipo dentro del campo CONTENT, crear un subtipo, o incluir un nuevo elemento dentro del campo llamado TYPE:

1. <META NAME="DC.creator" CONTENT="(TYPE=name) Javier Masa">
<META NAME="DC.creator" CONTENT="(TYPE=email) prueba@rediris.es">
2. <META NAME="DC.creator.name" CONTENT="Javier Masa">
<META NAME="DC.creator.email" CONTENT="prueba@rediris.es">
3. <META NAME="DC.creator" TYPE="name" CONTENT="Javier Masa">
<META NAME="DC.creator" TYPE="email" CONTENT="prueba@rediris.es">

Hemos creado 1 página con cada tipo de metas y las hemos indexado con Harvest para ver qué tipo de información se generaba en el SOIF. Este ha sido el resultado:

1. dc.creator{55}: (TYPE=name) Javier Masa
(TYPE=email) prueba@rediris.es
2. dc.creator.email{17}:
dc.creator.name{12}:
prueba@rediris.es
Javier Masa
3. dc.creator{30}: Javier Masa
prueba@rediris.es

Analizando los resultados podemos decir:

  • La información que se guarda en el SOIF ha de ser tratada en el caso 1 para extraer la información util.
    Hemos de quitar lo que está entre paréntesis cosa que actualmente no hace Harvest.

  • En el caso 2 hemos creado dos metas distintos. No es lo que queremos.

  • En el caso 3 hemos perdido el subtipo del meta. Hemos unido todos los contenidos en el tipo.
    Parece que no nos vendría del todo mal porque en las páginas web tenemos toda la información aunque en el SOIF hemos perdido el tipo.

Formato

Hemos elegido el tipo 3 y ahora vamos a mostrar todas las líneas con metainformación de una página tipo.

No es necesario que incluyamos todas las líneas en nuestros documentos aunque hemos de indicar las líneas <LINK>...</LINK> para aquellos metadatos que usemos.

<META NAME="package" TYPE="begin" CONTENT="AltaVista">
<META NAME="package" TYPE="begin" CONTENT="InfoSeek">
  <META name="description" content="La descripcion de la pagina.
              Habrá que poner lo que nos de la gana pero algo">
  <META name="keywords" content="clave1, clave2, clave3, clave5">
<META NAME="package" TYPE="end" CONTENT="AltaVista">
<META NAME="package" TYPE="end" CONTENT="Infoseek">

<META NAME="package" TYPE="begin" CONTENT="Dublin Core">
  <META NAME="DC.title"
        CONTENT="Titulo de la pagina">
  <LINK REL=SCHEMA.dc
        HREF="http://purl.org/metadata/dublin_core_elements#title">
 
  <META NAME="DC.creator"
        TYPE="name"
        CONTENT="Javier Masa">
  <LINK REL=SCHEMA.dc
        HREF="http://purl.org/metadata/dublin_core_elements#creator">

  <META NAME="DC.creator"
        TYPE="email"
        CONTENT="prueba@rediris.es">
  <LINK REL=SCHEMA.dc 
        HREF="http://purl.org/metadata/dublin_core_elements#creator">

  <META NAME="DC.subject"
        CONTENT="clave1, clave2, clave3, clave5">
  <LINK REL=SCHEMA.dc 
        HREF="http://purl.org/metadata/dublin_core_elements#subject">

  <META NAME="DC.description"
        CONTENT="La descripcion de la pagina.
                 Habrá que poner lo que nos de la gana pero algo">
  <LINK REL=SCHEMA.dc
        HREF="http://purl.org/metadata/dublin_core_elements#description">

  <META NAME="DC.publisher"
        CONTENT="RedIRIS">
  <LINK REL=SCHEMA.dc
        HREF="http://purl.org/metadata/dublin_core_elements#publisher">

  <META NAME="DC.date"
        TYPE="creation"
        SCHEME="iso31"
        CONTENT="1997-01-19">
  <LINK REL=SCHEMA.dc
        HREF="http://purl.org/metadata/dublin_core_elements#date">
  <LINK REL=SCHEMA.iso31 
        REFERENCE="ISO 31-1:1992 Quantities & Units - Part 1: space & time">

  <META NAME="DC.date"
        TYPE="current"
        SCHEME="ANSI.X3.30-1985"
        CONTENT="19980210">
  <LINK REL=SCHEMA.dc
        HREF="http://purl.org/metadata/dublin_core_elements#date">

  <META NAME="DC.form"
        SCHEME="imt"
        CONTENT="text/html">
  <LINK REL=SCHEMA.dc
        HREF="http://purl.org/metadata/dublin_core_elements#form">
  <LINK REL=SCHEMA.imt
        HREF="http://sunsite.auc.dk/RFC/rfc/rfc1521.html">

  <META NAME="DC.identifier"
        TYPE="url"
        CONTENT="http://www.dominio.es/index.html">
  <LINK REL=SCHEMA.dc
        HREF="http://purl.org/metadata/dublin_core_elements#identifier">

  <META NAME="DC.language"
        SCHEME="iso639"
        CONTENT="es">
  <LINK REL=SCHEMA.dc
        HREF="http://purl.org/metadata/dublin_core_elements#language">
  <LINK REL=SCHEMA.iso639
        REFERENCE="ISO 639:1988 Code for representation of names of languages">

  <META NAME="DC.coverage"
        SCHEME="Spatial"
        CONTENT="Spain">
  <LINK REL=SCHEMA.dc
        HREF="http://purl.org/metadata/dublin_core_elements#coverage">

  <META NAME="DC.rights"
        CONTENT="Public domain">
  <META NAME="DC.rights"
        CONTENT="http://www.rediris.es/copy.es.html">
  <LINK REL=SCHEMA.dc
        HREF="http://purl.org/metadata/dublin_core_elements#rights">

<META NAME="package" TYPE="end" CONTENT="Dublin Core">

Hemos dividido la metainformación en dos grupos. Aquella que va en el formato de Dublin Core y la que está pensada para los buscadores actuales que sólo extraen los metas description y keywords.

Hemos incluido los cualificadores TYPE y SCHEME para refinar el significado de un campo y para explicar el significado del valor contenido en el campo respectivamente.

NOTA
Hay un grupo de trabajo que va a realizar modificaciones a esos cualificadores.
Una vez que se tengan los primeros resultados tendremos que adaptarnos a los mismos.

Una vez que tomemos como definitivo este formato habrá que modificar las herramientas que generan e incorporan metainformación para que se adapten al mismo.

Cualquier sugerencia que tengáis que hacer comentadla en la lista
iris-index@listserv.rediris.es