Resultados de la actividad 01 - iris-index

Objetivos

  1. Instalar Harvest 1.5 en cada centro
  2. Instalar un gatherer en cada centro
  3. Instalar un broker en cada centro
  4. Exportar la información a un nodo de RedIRIS
  5. Instalar un broker en RedIRIS
  6. Crear interface de consultas en RedIRIS

Todos los objetivos han sido cumplidos y no hemos tenido unos problemas especiales.

Problemas encontrados

Una vez que varios centros han creado sus gatherers y brokers se han hecho pruebas de búsqueda para comprobar la efectividad de la estructura creada. Hemos detectado varias cosas:

  1. Índices generados grandes
  2. Información en los índices de diferente tipo
  3. No se han indexado correctamente las páginas con los caracteres "áéíóúñ"
  4. Falta de meta información en la mayoría de las páginas

Posibles soluciones

Inicialmente se pueden solucionar algunos de estos problemas incluyendo información adicional en los ficheros de configuración de los gatherers y brokers

Ficheros a modificar

  • /usr/local/harvest/gatherers/i1-index/lib/HTML.sum.tbl

    En este fichero especificaremos la información que deseamos que el gatherer extraiga de las páginas. Hemos pensado que indexar las páginas basandose en todo el texto no tiene sentido y vamos a especificar algunos tags particulares.

    De esta forma los índices generados tendrán un menor tamaño y se indexará sólo lo que queramos. El fichero ha de contener estas líneas:

    <H1>            headings
    <META:CONTENT>  $NAME
    <TITLE>         title,keywords
    <URL>           ignore
    <HTML>          ignore
    

    Sólo se indexará la información que se encuentre entre los tags <H1>...</H1>, los campos <META>, y el título de la página.

  • /usr/local/harvest/gatherers/i1-index/RunGatherer

    Hay que añadir estas líneas al principio

    LC_CTYPE=es
    export LC_CTYPE
    

  • /usr/local/harvest/brokers/i1-index/RunBroker

    Hay que añadir estas líneas al principio

    LC_CTYPE=es
    export LC_CTYPE
    

Se aconseja a todos los centros participantes que incluyan esta información en sus ficheros y generen de nuevo el gatherer y el broker

La Meta información

Una de las cosas que se necesita es incluir meta información. Para ello habrá que desarrollar alguna herramienta que lo haga de la forma más automática posible.

RedIRIS usa un programa que formatea las páginas Web e introduce una serie de líneas metas de este estilo:

<meta name="description"   content="Primera actividad del grupo iris-index">
<meta name="date"          content="19970724">
<meta name="expires"       content="19971230">
<meta name="reply to"      content="masa@rediris.es">
<meta name="organization"  content="Centro de Comunicaciones CSIC RedIRIS">
<meta name="locality"      content="Madrid, España">
<meta name="author"        content="Web-index-Master">
<meta name="keywords"      content="RedIRIS, indexación, index">
<meta name="lang"          content="es">

El problema radica en las keywords que hay que introducirlas a mano. Se propone en este grupo desarrollar una herramienta que basandose en unas expresiones regulares del tipo <h*>X</h*> sea capaz de extraer de un fichero .html las cadenas que se encuentren en ese tipo de tag y las introduzca en la línea meta correspondiente.

Si alguien tiene algo que comentar sobre este aspecto será bien recibido :)