Servicio de distribución de información indexada por la red (IRIS-INDEX)

Introducción


El pasado día 10/04/97 de 11:30 a 13:30 tuvo lugar la reunión de coordinación sobre Indexación en Madrid dentro de los 3. Grupos de Trabajo de RedIRIS

Orden del día


Tutorial breve sobre el harvest


    ¿ Qué es Harvest ?

      Harvest es un conjunto de utilidades que permiten recoger, extraer, organizar, buscar u replicar información por Internet.

      La ventaja que presenta este paquete con respecto a los buscadores tradicionales es que permite exportar la información que han indexado, de manera que otros buscadores no tengan que mirar todas las páginas de nuestro servidor.

      Harvest está compuesto por varios módulos de los que destacamos:

      • Gatherer
        Es la parte que se dedica a la recolección de la información de los servidores, extrae los ítems que necesita, los ordena para generar la información estructurada en formato índice (SOIF) y exporta dicha información.

      • Broker
        Esta parte toma la información de uno o varios gatherers, suprime la información duplicada, indexa incrementalmente y provee un interface WWW para que los usuarios puedan consultar.

    Instalación

      Si se usa el kit que distribuye RedIRIS sólo hay que descomprimir el fichero harvest.1.tar.gz y se creará una estructura bajo /usr/local/harvest con todos los ficheros necesarios para tener varios gatheres y brokers.

    Creación de Gather y Broker

      Existe un programa en /usr/local/harvest/RunHarvest que nos permite crear un gather y un broker. Nos pedirá una serie de datos que podés ver en el fichero /usr/local/harvest/documentacion/RunHarvest.txt

    Configuración particular

      Una vez que tenemos el gather y broker creados podemos configurar algunas cosas más concretas.
      Podemos indicar qué datos son los que queremos que extraigan de los documentos basándonos por ejemplo en tags HTML.

Problemática sobre la indexación


Todo el mundo cuando desea encontrar una información específica en intetnet suele usar servidores de empresas comerciales como AltaVista, Yahoo, OpenText, Lycos, InfoSeek, etc. Estas empresas, que viven de la publicidad, se hacen la competencia las unas a las otras, para tener la mayor cantidad de información en sus servidores y se dedican a rastrear la red machacando nuestros servidores web.

Lo que pretendemos es crear un mecanismo por el que los servidores Web sean los que generen su propia información indexada y la compartan con otros servidores con el fin de:

  • disminuir la carga de la red por las consultas de los numerosos robots
  • evitar la inmensa cantidad de información inútil indexada
  • hacer que las búsquedas sean más cómodas al usuario

Esto plantea una problemática ya que:

  • Cada centro indexa como quiere (si es que indexan su información)
  • Nadie quiere calentarse la cabeza pensando la información que va a indexar y se suele indexar todo el texto
  • No se desea tener que modificar las miles de páginas ya escritas para que la indexación sea eficiente

Objetivos y líneas de trabajo en el grupo


Objetivos

  1. Generales
    • Indexación cooperativa entre diferentes servidores para hacer más efectivo el uso de los recursos (especialmente el ancho de banda).
    • Crear un jerarquía de distribución de la información indexada
    • Selección de la información a indexar
    • Proporcionar al usuario final uno o varios puntos de consulta que le garanticen una calidad de la información indexada
  2. Software
    • Utilización de software existente
    • Software de dominio público
  3. Documentación
    • Obtener documentacion cómoda y facil para la instalación y configuración de harvest
    • Obtener kits con binarios de Harvest para varias plataformas

Duración

    La duración de este proyecto está por definir por los participantes dependiendo de la revisión de los objetivos.

Otros

  • Se usará una lista de distribucion que se creará para tal efecto.
  • Se enviará documento acreditativo de la participación en el grupo de trabajo a los participantes que lo soliciten.

Configuración inicial propuesta


  • Estructura propuesta de sistema
    • Software a usar: Harvest
    • Cada centro que participe ha de tener un gather y un broker.
    • Exportara el broker a un centro jerarquicamente superior.

  • Estructura de datos

    • Cada centro que participe ha de indexar una parte de su servidor Web. La parte de información tendrá que decidirse.

    • Sería conveniente introducir algún tipo de metainformación para identificar la procedencia de esa información.

      Por ejemplo, RedIRIS ha usado en sus páginas:

      langSon las iniciales de la lengua en la que está escrito el documento
      dateFecha de publición de la página
      organizationIdentifica a la organización a la que pertenece la página
      authorIdentifica al autor de la página
      descriptionUna descripción sobre el contenido de la página. Esta descripción es la que se mostrará cuando una persona encuentre esta página en un buscador
      keywordsPalabras clave para identificar el documento

      Estas palabras clave pueden obtenerse de diferentes formas:

      • Generadas a mano por el usuario
        El usuario ha de indentificar qué palabra o frases son las susceptibles de poder identificar el documento e introducirlas en el campo META keywords.

      • Generadas por un programa específico
        Se dan unas especificaciones a un programa específico para que busque dentro del documento y extraiga las palabras que nos interesen creando la línea META keywords.

Topologia de gather y broker, diseño inicial de la red virtual de intercambio de informacion indexada


Topología general

La topología general que se desea conseguir se muestra en este gráfico


     1.                           A
                 +----------+-----+---------------+
                 |          |                     |
     2.          B          C                     Z 
             +---+-+    +---+-----+        +------+------+
             |     |    |   |     |   ...  |      |      |
     3.      B1    B2   C1  C2 .. CN       Z1     Z2 ... ZN 
    

  • Cada nodo de los niveles 2 y 3 tendrá por lo menos un gahter (g1) y un broker (b1) específico para el grupo de Trabajo.
  • Estos nodos exportarán el broker (b1) a su nodo inmediatamente superior.
  • Cada nodo del nivel 2 puede tener un broker (b2) con información local sobre el nodo. En este caso el broker b1 tendrá que englobar la información de los brokers b1 de sus hijos y la de su propio broker local b2.
  • El nodo A creará un broker (b0) con la información de los brokers (b1) de los nodos de nivel 2 y la de su propio broker (b2) si lo tuviese.
  • El broker b0 será el que se exportará y podrá ser consultado por todo el mundo.

    Puede existir algún centro A2 que obtenga el broker (b0) directamente de A para tener un mirror de la información al objeto de repartir la carga de A por las consultas de la gente.


     1.                         A (b0)
                 +--------------+-------------+
                 |                            |
     2.          B                            Z
             (g,b2,b1)                    (g,b2,b1)
             +---+---+                 +------+------+
             |       |                 |      |      |
     3.      B1      B2                Z1     Z2 ... ZN
           (g,b1)  (g,b1)            (g,b1) (g,b1) (g,b1)
    

Topología concreta

Proponemos lo siguiente:

  • Los nodos de nivel 2 serán centros en las cabeceras de red
  • Los nodos de nivel 3 serán Universidades y Centros de Investigación
  • Podrán existir niveles inferiores al 3
  • El nodo A inicialmente estará en RedIRIS pero se contempla que puedan existir mirrors

  • Podríamos usar inicialmente los siguientes puertos:

    Puerto  Descripción
    8500Gather GTgObtiene la información para el GT
    8502Broker local GTb2Es el broker local basado en el gather. Si es de un nodo de último nivel estará en el puerto 8501 (b1) y se exportará al nivel superior
    8501Broker GTb1Se basa en el broker local (8502) y en los de los hijos que tenga (8501) y se exportará al nivel superior
    8505Broker totalb0Es el broker que genera el centro A con la información de todos los brokers de tipo 1

    Si algún centro está usando estos puertos para otra cosa podemos hacer un listado con los puertos que cada organización esta usando.

Transparencias de la reunión


Aquí podéis ver las transparencias que se mostraron en la reunión en formato HTML.

Transp. 0 · Transp. 1 · Transp. 2 · Transp. 3 · Transp. 4 · Transp. 5