lunes, 9 de diciembre de 2013

TEMA PREPARADO PARA EL FINAL DE CLASIFICACION II. BIBLIOTECARIO DOCUMENTALISTA.

I TEMA PARA FINAL CLASIFICACION II LANCASTER: “EL CONTROL DEL VOCABULARIO E LA RECUPERACIÓN DE INFORMACIÓN” CAPÍTULO I En sistemas de recuperación de información es esencial el control del vocabulario para representar las materias. Se trata de los distintos aspectos del control del vocabulario en el contexto de la recuperación de información. Se centra en el Tesauro, que es el sistema de control más utilizado en los últimos veinte años. Sin embargo, también se consideran otros aspectos, como el funcionamiento de sistemas de recuperación de información sin control de vocabulario. Los principales elementos de un sistema de recuperación de información son: ENTRADA (INPUT): documentos adquiridos (en su sentido más amplio, impresos o de cualquier otro tipo) por el centro de documentación que maneja el sistema. Implica la existencia de criterios y políticas de selección, que a su vez determinan un conocimiento detallado y exacto de las necesidades de información de la comunidad a la que se dirige el sistema. Una vez adquiridos los documentos, estos deben ser “organizados” y “controlados” para que puedan ser identificados y localizados en respuesta a diferentes tipos de demandas. ACTIVIDADES DE ORGANIZACIÓN Y CONTROL incluyen: clasificación, catalogación, indización y el resumen. Dos elementos importantes son la descripción física del documento (catalogación descriptiva) y la elección de los puntos de acceso (autores, títulos) para su inclusión en catálogos y bibliografías. El proceso de indización indica dos fases intelectuales bastante diferentes; “análisis conceptual” de un documento y la “traducción” de aquel a un vocabulario determinado. Para efectuar un análisis conceptual adecuado, el indizador debe comprender la materia del documento y debe tener un buen conocimiento de las necesidades de los usuarios del sistema. La segunda fase del proceso de indización es la traducción. En la mayoría de los sistemas se cuenta con un “vocabulario controlado”, conjunto limitado de términos que deben utilizarse para representar las materias de los documentos. Este vocabulario puede ser: -lista de encabezamiento de materias; -un esquema de clasificación; -un tesauro; -o simplemente una lista autorizada de frases o palabras clave. Luego de la indización, los documentos son almacenados (en base de datos de los documentos) y los registros de indización se organizan en una segunda base de datos para poder ser buscados fácilmente para distintos tipos de peticiones. La base de datos de los registros de indización o “representaciones de los documentos” era un fichero o índice impreso, pero en la actualidad, es un fichero automatizado (1995) sobre cinta magnética o disco considerada como “índice” del documento almacenado. En una descripción bibliográfica de cada documento de la colección, se ven varios puntos de acceso para que la representación sea recuperable, no solo por los términos que describen las materias, sino por autor y título. En una base de datos bibliográfica de documentos, los contenidos se indizan para hacerlos accesibles y el “almacenamiento de documentos” es sustituido por listas automatizadas de datos (ej: físicos, químicos, numéricos y estadísticos). En un sistema, las fases de la salida (output) son muy similares a las que se dan en la entrada. Los usuarios realizan diferentes peticiones al centro de documentación y los documentalistas preparan estrategias de búsqueda para esas peticiones. También, dentro de esas estrategias de búsqueda se consideran las fases de análisis conceptual y de traducción. La primera fase es un análisis de la petición para determinar lo que realmente busca el usuario y la segunda es la traducción del análisis conceptual al vocabulario del sistema. El análisis conceptual de la petición es traducido al lenguaje del sistema como ESTRATEGIA DE BÚSQUEDA (representación de la petición), así como el registro de indización puede considerarse la representación del documento. La diferencia entre ambos es que en aquella existe “lógica” (relaciones lógicas entre los términos) y en el registro de indización, las relaciones lógicas entre los términos estarán más implícitas que explícitas. Finalizada la estrategia de búsqueda, se “compara” con las representaciones de los documentos de la base de datos. En la fecha de esta exposición de Lancaster, esta búsqueda se realiza on-line, desde una terminal, en una biblioteca, aunque la base de datos esté a mucha distancia (actualmente se puede utilizar INTERNET). Las representaciones de los documentos que se ajustan a la estrategia de la búsqueda y satisfacen los requerimientos lógicos de la búsqueda son recuperados y ofrecidos al usuario (impresos o por pantalla). El proceso culmina cuando el usuario queda satisfecho con los resultados de la búsqueda. El papel central del vocabulario en un sistema de recuperación de la información destaca que los indizadores tienen que utilizar los términos de este vocabulario para representar las materias de los documentos. En las estrategias de búsqueda se utilizarán los mismos términos para interrogar la base de datos. Sin control de vocabulario surgirán varios problemas: los términos pueden significar casi lo mismo, sinónimos o cuasi-sinónimos. Si estas variaciones terminológicas no se hacen equivalentes en el contexto de un campo temático determinado, se relacionarían los sinónimos escogiendo uno de ellos y remitiendo a él desde los demás, ej: LÁMINAS---PLANCHAS. Otro problema que se presenta es que algunos términos son ambiguos fuera de su contexto (ej: ARTICULACIONES---enlace entre dos piezas de una máquina o instrumento o uniones anatómicas. Se reduce tal ambigüedad con un calificador entre paréntesis. El mayor problema es que en una lista alfabética los términos con significados cercanos aparecerán separados. Ej.: TIPOS DE UNIÓN. Útil sería para la búsqueda de información que todos los términos con significados relacionados estuvieran unidos de algún modo. Se puede observar (según Láncaster) dos tipos de relaciones: 1.-Relación permanente (relación paradigmática o relación a priori) entre una cosa y tipos de esa cosa. (género y especies). Ej.: FRACTURA y ROTURA son tipos de AVERÍA. 2.-Relación transitoria (relación sintagmática o a posteriori). Ej.: la AVERÍA puede estar ocasionada por la CORROSIÓN, pero no siempre se debe a ella ni la CORROSIÓN conduce siempre a una AVERÍA). Así se demuestran claramente los objetivos del control del vocabulario en un sistema de recuperación de información: • 1.-Facilitar la representación consistente de las materias por los indizadores y usuarios que recuperan, evitando la dispersión de los elementos relacionados. Esto se consigue con el control (agrupación) de los sinónimos y cuasisinónimos y la distinción de los homógrafos. • 2.-Facilitar la realización de una búsqueda amplia sobre una materia enlazando los términos con relaciones paradigmáticas o sintagmáticas. La indización es más consistente cuando el vocabulario está controlado. Los indizadores estarán de acuerdo sobre los términos necesarios para representar determinada materia, si éstos son seleccionados de una lista previa, pueden utilizar cualquier término. Igual en el proceso de búsqueda, donde es más fácil identificar los términos apropiados a una necesidad de información si son seleccionados y extraídos de una lista determinada. Por lo tanto el vocabulario controlado facilita la coincidencia entre el lenguaje de los indizadores y el de los usuarios que hacen la búsqueda. Un vocabulario controlado solo necesita un con junto de términos que puedan ser utilizados por el indizador y el usuario. Normalmente los términos están sujetos a algún tipo de estructura para que aquellos que tienen significados cercanos aparezcan juntos o relacionados de alguna forma. Ello ayuda al indizador y al usuario que hacen la búsqueda para poder seleccionar los términos adecuados para representar una determinada materia y también ayuda al usuario a identificar los términos necesarios para realizar la búsqueda amplia sobre alguna materia. CAPÍTULO II SISTEMAS PRECOORDINADOS Y POSTCOORDINADOS_ Clasificación, presente en todas las actividades de recuperación de información. INDIZACIÓN es proceso de clasificación. INDIZADOR, que determina, que, por ejemplo, un documento trata del efecto de la TELEVISIÓN sobre los HÁBITOS DE LECTURA DE LOS PREESCOLARES y asigna al documento los temas: PREEESCOLARES, TELEVISIÓN Y HÁBITOS DE LECTURA, asigna a tres clases representadas por esos términos, el indizador agrupa el documento junto a otros que previamente han sido incluidos en una u otra de esas clases. Los términos utilizados por el indizador para representar las materias se pueden considerar como denominaciones que identifican a varias clases: son IDENTIFICADORES DE CLASE, habitualmente TÉRMINOS DE INDIZACIÓN o DESCRIPTORES. A todo el conjunto de términos que describen las materias de una base de datos, se le puede llamar: LENGUAJE DE INDIZACIÓN. El VOCABULARIO CONTROLADO es un tipo de lenguaje de indización en el que la terminología está controlada. La clasificación también se manifiesta en el modo en que se interroga una base de datos. La estrategia de búsqueda supone decidir qué clases representadas en una base de datos, pueden contener elementos relevantes para una determinada necesidad de información e interrogar al sistema de forma que esos elementos puedan ser recuperados. Esto es, la capacidad de combinar clases para que los únicos elementos recuperados sean aquellos que satisfagan una determinada condición lógica. Ej: si se quiere información sobre los HÁBITOS DE LECTURA de los PREESCOLARES solo deberán recuperarse los elementos que aparezcan tanto en la clase PREESCOLARES como en la clase HÁBITOS DE LECTURA. Para una recuperación efectiva de la información es esencial que las clases puedan combinarse entre sí con total flexibilidad. Ej: un documento indizado con los términos: LAGOS, CONTAMINACIÓN DEL AGUA, COMPUESTOS DE MERCURIO y PECES. Probablemente el documento tratará del efecto sobre los peces, de la contaminación de los lagos, causada por compuestos de mercurio. No solo se debería recuperar este documento con respecto a una búsqueda sobre ese tema concreto, representado por la interrelación de las cuatro clases, sino también en respuesta a una búsqueda con cualquier nivel de relación entre las cuatro clases: Ej: PECES Y COMPUESTOS DE MERCURIO; CONTAMINACIÓN DEL AGUA Y LAGOS ; COMPUESTOS DE MERCURIO Y CONTAMINACION DEL AGUA Y PECES. Cualquiera de estas relaciones se pueden considerar relevantes. Esta es la diferencia fundamental entre los sistemas de recuperación pre-coordinados y los post-coordinados. Especificando la distinción entre ellos: ej, un documento fue indizado con cuatro términos (asignado a cuatro clases). En un sistema post-coordinado se conserva la multidimensionalidad de la relación entre las cuatro clases: no es preciso un orden de clases ya que todos tienen el mismo peso y permite recuperar el documento independientemente de cual sea la combinación de los cuatro términos que se plantea en la búsqueda. Es así para todos los sistemas automatizados. En cambio en una entrada en la que estén presentes todos los términos de indización ordenados en una secuencia lineal, accediendo al documento a través del primer término de la cadena, ej: entrada del índice: PECES, LAGO, COMPUESTOS DE MERCURIO, CONTAMINACION DEL AGUA. Esto se reemplaza solo si el usuario busca en el índice el término peces, ya que los otros términos son subdivisiones o modificadores de él y es el tipo de índice pre-coordinado en el que las clases se combinan en una cierta secuencia durante la construcción del índice. El usuario no puede combinar libremente las clases, asi no puede recuperar documentos que no estén explícitos en el índice. En un índice pre-coordinado pueden multiplicarse las entradas y existen procedimientos para conseguir, en forma sistemática, el nro. de entradas necesarias (o una única entrada con referencias cruzadas) con ordenador. Ej.: método con rotación sistemática. La multiplicación de entradas en un índice pre-coordinado puede proporcionar múltiples puntos de acceso, pero por razones de espacio y costo, hay un límite en el nro. de puntos de acceso posibles, lo que no ocurre en el índice post coordinado. Además, aparte del nro. de puntos de acceso, un índice pre-coordinado no le da al usuario la posibilidad que le ofrece el post-coordinado de manipular las clases libremente. Por esa razón se llama también manipulable (post-coordinado ) y no manipulable (pre-coordinado). Esto último se puede encontrar en un esquema de clasificación. El control del vocabulario es aplicable tanto a los sistemas pre-coordinados como a los post-coordinados. A continuación se estudian los sistemas post-coordinados. CAPÍTULO III _ESTRUCTURA Y PRESENTACIÓN DEL VOCABULARIO_ Existen dos partes complementarias del vocabulario controlado: organizaci.on sistemática de los términos y una lista alfabética de esos términos. Esas partes pueden estar separadas o completamente integradas. _CLASIFICACIONES ABIERTAS_ Una forma de presentación sistemática del vocabulario es como “estructura arbórea”. Como si fuera un árbol genealógico familiar. Se pueden observar relaciones de género-especie. Ej.: “cámaras de filmación” es una de las cuatro especies de “cámaras”, “cámaras cinematográficas”, “sumergibles”, tiene dos genéricos: “cámaras sumergibles” y “cámaras cinematográficas”. Si un vocabulario se dispusiera así, cada árbol o página entera ocuparía una página separada. El resultado sería un Atlas con un “mapa” de terminología de una materia en cada página. El mapa se identifica con otro con referencias cruzadas que asocian los términos relacionados entre sí (Ej.: mapa de carreteras se envía de una parte a otra). Mapa “cámaras” se puede asociar a otro mapa. “fotografía”; “cámaras sumergibles” a “exploración submarina”, etc. También es necesario el INDICE ALFABETICO. Se indica la referencia al mapa en la que está incluido un determinado término y también proporciona relaciones cruzadas a los mapas relacionados. Ej.: FOTOGRAFÍA va unido a CÁMARAS, CÁMARAS SUMERGIBLES a BUCEO, etc. Estas relaciones existen mediante la abreviatura TR: TÉRMINO RELACIONADO. También hay control de sinónimos. Ej.: CÁMARAS SLR Y CÁMARAS REFLEX DE UN OBJETIVO son considerados como sinónimos. El usuario que entre en la lista y por el primer término, será enviado (USE) al segundo. Esta relación es recíproca. Ej.: CÁMARAS REFLEX DE UN OBJETIVO se indica mediante UP (USADO POR) ya que este término se utiliza en lugar de CÁMARAS SLR. Los términos con significados poco claros van acompañados de notas de aplicación que es una definición breve de cómo es utilizado el término en el contexto del vocabulario del sistema (NA). Los objetivos de un vocabulario controlado son: sinónimos controlados y los términos relacionados aparecen juntos para facilitar al indizador y al que recupera la selección de los términos más apropiados para representar una determinada materia y ayudar al usuario a identificar todos los términos necesarios para realizar una búsqueda sobre un tema. Cuando existe una estructura arbórea en el lenguaje de indización, se contempla la relación paradigmática y los términos relacionados establecen la relación sintagmática. Además, el vocabulario tiene disposición sistemática y disposición alfabética. El vocabulario controlado así mostrado puede considerarse como un tipo de esquema de clasificación con un índice alfabético complementario. Es modo aceptable para el control del vocabulario pero: 1.- una excepción es que en la estructura arbórea si hay jerarquías muy extensas puede traer problemas en esa estructura, ej: “cámaras” puede ser un elemento de una jerarquía mucho mas extensa y .2- al ser extenso el vocabulario, la forma de disposición puede ser antieconómica por gran espacio ocupado. Existen otros esquemas de clasificación en donde se muestra una estructura en forma sistemática, pero es confusa y ambigua porque los términos pueden aparecer en dos lugares. Ej.: “cámaras cinematográficas sumergibles esta subordinado tanto a “cámaras cinematográficas” como a “cámaras sumergibles. Otra confusión es el sistema de numeración “notación” que aparece junto a los términos, solo sirve para mantener la secuencia de la estructura sistemática impresa y actuar como una nota para representar los términos (especialmente en los lomos de libros de estanterías). Igualmente el vocabulario satisface los requisitos de vocabulario controlado. Una tercera forma de presentación sería reordenando los términos en orden alfabético y entremezclando con los de otras jerarquías. En este caso el género de un término aparece como “término genérico" ( TG) Y cada especie del término como (“TE)”término específico “. Ej.: “cámaras réflex” es una especie de “cámaras fotográficas” (o sea: “cámaras fotográficas”, es su genérico, TG y “cámaras réflex” tiene dos específicos (TE). Estas relaciones son recíprocas: “cámaras” aparece como TG de “cámaras sumergibles” y “cámaras sumergibles” como TE de “cámaras”. Aunque la ordenación es alfabéticamente abierta, las relaciones TG/TE constituyen una clasificación cerrada. Para llegar a esta ordenación se desarrolló primero la jerarquía mostrada en la estructura arbórea que puede ser obtenida de la reordenación de los términos de esta estructura en orden alfabético, entremezclándolos con los de otras jerarquías y a la inversa. Además se puede informatizar para obtener la estructura TG/TE de la última estructura, a partir de la estructura arbórea y viceversa. Se incorpora también el control de sinónimos (reenvío USE), la estructura TR y notas de aplicación y así se satisfacen los requisitos de un vocabulario controlado. La presentación es alfabética con jerarquía cerrada, marcada por estructura de referencias cruzadas y así se satisfacen los requisitos en una disposición única: se combinan las disposiciones sistemática y alfabética. Si no es con estructura arbórea, por supuesto, no puede contemplarse la jerarquía completa de un vistazo y solo se establece a partir de las relaciones TG/TE. Un tesauro correctamente elaborado normalmente es alfabéticamente abierto y sistemáticamente cerrado. II _CONSTRUCCIÓN DE LOS TESAUROS_ Se recoge material (términos) y su organización para la construcción de un instrumento eficaz en la recuperación de información. Considerando si es necesario elaborar un nuevo tesauro, el centro de documentación considera la posibilidad de adoptar o adaptar algún otro tesauro a sus propias necesidades. Otra posibilidad sería elaborar un microtesauro que se ajuste a la estructura jerárquica de un tesauro más general. Seria menos costoso que elaborar un nuevo tesauro y se favorece la compatibilidad y evita la proliferación de vocabularios similares que se confunden entre sí. CAPITULO VI _ORGANIZACIÓN DE LOS TÉRMINOS : LA RELACIÓN JERÁRQUICA Recogidos los términos, hay que organizarlos en una estructura lógica, por ejemplo: la terminología sobre biblioteconomía aparece dividida según una serie de aspectos o facetas. Unos conjuntos son grandes si la faceta es amplia, otros pueden ser bastante pequeños. Puede ser necesario crear un pequeño conjunto de contenido general para colocar aquellos términos que no encajen bien en ninguna de las facetas principales. Luego de identificar las facetas, hay que organizar en forma jerárquica cada una de ellas. No se puede llegar a tener una estructura de tesauro adecuada sin haber elaborado previamente un esquema de clasificación. Observando las jerarquías parciales de dos facetas de biblioteconomía, se forma una verdadera clasificación de parte de la terminología sobre biblioteconomía, la asociación de una notación con los términos no es un elemento esencial del esquema de clasificación. La estructura clasificatoria es abierta y los niveles se identifican; se estructura el tesauro ordenando los términos alfabéticamente y utilizar los reenvíos TG/TE debajo de cada término para indicar las relaciones jerárquicas establecidas. Ej.: BIBLIOTECAS ACADÉMICAS TG BIBLIOTECAS CLASIFICACION CERRADA: TE BIBLIOTECAS DE COLEGIOS UNIVERSI BIBLIOTECAS UNIVERSITARIAS BIBLIOTECAS DE COLEGIOS UNIVERSIT TG BIBLIOTECAS ACADÉMICAS BIBLIOTECAS ACADÉMICAS BIBLIOTECAS DE COLEGIOS CLASIFICACION ABIERTA UNIVERSITARIOS BIBLIOTECAS UNIVERSITARIAS Una presentación que no ocupe espacio y no mezcle los niveles jerárquicos para no producir confusión, para ello se debe evitar presentación en términos específicos de forma alfabética-sistemática. Ej.: BIBLIOTECAS TE BIBLIOTECAS ACADÉMICAS BIBLIOTECAS DE COLEGIOS UNIVERS BIBLIOTECAS UNIVERSITARIAS …y un tesauro pensado para funcionar on-line no presentaría problemas de espacio. Se estructuran todos los niveles de la jerarquía debajo de cada término, facilitando al usuario una ampliación de la consulta. La relación TG/TE siempre debe ser genero/especie. Los términos específicos deben representar un “tipo” de término genérico y la mayoría de los términos de un tesauro tendrá un solo TG, aunque habrá casos en los que un término puede aparecer en más de una jerarquía, sobre todo en tesauro multidisciplinario. Ej.: DIAMANTES TE DE INSTRUMENTOS CORTADORES y DE PIEDRAAS PRECIOSAS. Toda decisión depende del campo cubierto por el tesauro. Ej.: ORO sería TE de MATERIALES PARA EMPASTE no METALES o METALES PRECIOSOS. La relación jerárquica está bastante bien definida y se pueden formular directrices precisas para asegurar la relación TG7TE aplicado correctamente. Ej.: JUGUETES TE (POR MATERIALES) JUGUETES DE GOMA JUGUETES DE MADERA JUGUETES DE METAL CAPÍTULO VII _ORGANIZACIÓN DE LOS TÉRMINOS: LA RELACIÓN ASOCIATIVA_ La relación asociativa (TR) término relacionado no es relación jerárquica y NO debe ser utilizada para relacionar términos que aparecen en la misma jerarquía. Los significados de los términos de la misma jerarquía quedan poco claros por separado. Ej.: (BURROS como TR de MULAS y viceversa. Aún así parece redundante. Esta relación es sintagmática o a posteriori. No es posible establecer normas precisas, a diferencia de la relación jerárquica. Lo que se puede precisar es que los términos cuyos significados están relacionados, pero que aparecen en diferentes jerarquías son de relación TR. Tipos de relaciones entre términos: • Entre una cosa y su aplicación: ADHESIVO TR UNIONES Y a la inversa: UNIONES TR AHESIVO • Entre efecto y causa: y viceversa: FRACTURA QUEBRADIZA TR FRAGILIDAD POR EL HIDROGENO • Entre cosa y propiedad íntimamente asociada a ella: GOMA TR ELASTICIDAD • Entre materia prima y producto: CAOLIN TR PORCELANA • Entre dos actividades complementarias: ENSEÑANZA TR APRENDIZAJE • Entre ciertos opuestos: VIDA TR MUERTE • Entre actividad y propiedad asociada a ella: FLEXIÓN TR PLASTICIDAD • Entre actividad y producto de actividad: CONSTRUCCIÓN TR ESTRUCTURAS • Entre cosa y partes que no pueden separarse: AVIONES TR FUSELAJE Se pregunta si es probable que alguien que busque información indizada con el primer término (A), también esté interesado en el segundo (B). Si así es, se relacionan A y B como TR, si ambos términos no fueron ya relacionados con TG o TE. Es relación recíproca y para buen mantenimiento del tesauro, ver si hay reenvío inexistente, en ese caso B se elimina. Distinción entre relaciones TG/TE y TR: se considera al tesauro como instrumento superior a las listas de encabezamientos de materias, donde ambas relaciones están incluidas en la referencia: VER TAMBIÉN. Ej.: FRACTURA Ver también AGRIETAMIENTO FRACTURA QUEBRADA FRAGILIDAD FRAGILIDAD POR EL HIDRÓGENO Lo habitual en los encabezamientos de materias, es que el reenvío se haga del general al específico, pero raramente en sentido inverso. Ej.: Se encuentra el reenvío UNIONES ver también SOLDADURA, pero no: SOLDADURA ver también UNIONES. En otras palabras: no se hace explícitamente recíproca la relación. Diferente de un tesauro bien estructurado, la lista de encabezamientos de materias no es clasificación jerárquica estricta y no se establece esta clasificación a partir de una lista de encabezamiento de materia. CAPÍTULO X _HOMOGRAFÍA Y NOTAS DE APLICACIÓN_ Homógrafo: cadena de caracteres con más de un significado y más de una pronunciación. Homónimo: más de un significado con una única pronunciación (ej.: “planta”) Homófono: cadena de caracteres diferentes pero que se pronuncian igual (vaca-baca). Este no constituye problemas, pero sí los homógrafos y homónimos. La homografía es problema en caso de términos simples. Ej.: DIAFRAGMA recupera MÚSCULO DIAFRAGMÁTICO o puede ser ANTICONCEPTIVO o DIAFRAGMA FOTOGRÁFICO. En la recuperación de información es raro que se manejen palabras aisladas. La ambigüedad se reduce cuando el tesauro trata de campo temático limitado. Ej.: no es necesario explicar el término DIAFRAGMA cuando el tesauro se refiere a la fotografía. En otro ejemplo, cuando pueda darse esa ambigüedad, se resuelve con calificador entre paréntesis. TANQUES (CONTENEDORES) TANQUES (VEHÍCULOS) El calificador entre paréntesis se diferencia de la nota de aplicación porque los calificadores forman parte del descriptor y una verdadera nota de aplicación está separada de él, precedida de la abreviatura NA. Ej: ROMANCE GÓTICO NA: TIPO DE NOVELA, POPULAR A FINALES DE SIGLO 18 Y PRINCIPIOS DEL 19… No todos los descriptores necesitan una nota de aplicación, sino solo aquellos cuyo alcance puede ser poco claro para el usuario. La nota de aplicación no tiene necesidad de ser una verdadera definición, sino una mera indicación de cómo debe ser usado el término. Usos diferentes: • Limitación positiva del alcance de un término: REEDUCACION PROFECIONAL NA: FORMACION PARA UN CAMBIO EN LA OCUPACIÓN • Limitación negativa: LICENCIA NA: EXCLUYE HABILITACIONES ESCOLARES Y CERTIFICADOS DOCENTES • Definición verdadera: ERROR ESPACIAL NA: TENDENCIA A SER INFLUIDO POR LA POSICION ESPACIAL • Combinación de definición y limitación positiva: PLAYBACK NA: REGISTRO SONORO O VISUAL QUE EVALÚA O REACCIONA ANTE EL RESULTADO DE SU PROPIO REGISTRO. El contexto en el que aparece un término en un tesauro también reduce la ambigüedad y la necesidad de calificadores o notas de aplicación. Ej.: TANQUES relacionado genérico: ARMAS (el contexto aclara su significado). CAPITULO XI _PRESENTACION DEL TESAURO_ Un descriptor con todos los elementos previamente identificados. Entrada del tesauro: INSTRUMENTOS INDICADORES DE POSICIÓN NA Instrumentos utilizados para la localización de aviones barcos y otros objetos en relación a un punto o puntos de referencia específico. UP Indicadores de posición TG INSTRUMENTOS TE INDICADOR PANORÁMICO INDICADORES DE POSICION DEL BLANCO INDICADORES DE POSICION TERRESTRE TR DETECCION RASTREO Todas las entradas tendrán todos los elementos. La mayoría de los términos tendrán un TG y muchos tendrán uno o más TE. La existencia de otras relaciones es menos frecuente. Los elementos aparecen en el orden recomendado por las normas dentro de cada relación (TG,TE,TR). Los términos se ordenan alfabéticamente. La presentación alfabética de los términos en un tesauro bien construido refleja correctamente la clasificación jerárquica. Pero la disposición alfabética tiene limitaciones: es difícil proporcionar un panorama completo de todos los términos en una jerarquía larga o en una categoría amplia de materias. Para mostrar un panorama completo, normalmente la presentación alfabética va acompañada de otros tipos de presentaciones (ej.: sistemática, jerárquica, etc. También lista permutada del tipo kwoc o kuic. _PRESENTACION GRAFICA_ En el tesauro convencional la parte alfabética es la importante y las demás son complementarias de ella. Otra forma de presentación del tesauro es la gráfica. Se presenta como ejemplo un tesauro donde se encuentra en forma gráfica en lo que se llama diagrama de flechas, los términos de la jerarquía CAMARAS. De esta jerarquía, el término más general CAMARAS aparece en el centro y siguiendo las flechas se identifican los distintos niveles jerárquicos. CAMARAS con cuatro términos específicos, uno de ellos, CAMARAS FOTOGRAFICAS, tiene a su vez cuatro términos específicos; uno de ellos otros cuatro y así sucesivamente. De forma inversa, CAMARAS DE 35 MM es una subdivisión de CAMARAS MINIATURA, que es una subdivisión de CAMARAS FOTOGRAFICAS y ésta lo es de CAMARAS, que es el término superior. Varios términos de la estructura están unidos a otras estructuras (ej.: CÁMARAS CINEMATOGRÁFICAS con CINEMATOGRAFÍA) de igual modo que un atlas donde se remite de un mapa a otro. Por ello a este tipo de estructura se le llama muchas veces: mapa terminológico. III _PRESENTACION GRÁFICA DE TESAUROS_ También es necesario contar con índice alfabético de los mapas que incluyan todos los elementos de un tesauro. Ej.: BUCEO T 473 TR: CÁMARAS SUMERGIBLES E417 CÁMARAS CINEMATOGRÁFICAS TG: CÁMARAS DE FILMACIÓN TE: CAMARAS CINEMATOGRÁFICAS SUMERGIBLES TR: CINEMATOGRAFIA Se han propuesto varias formas de representaciones gráficas Ejemplos: • CIRCULAR THESAURUS: uno de los primeros tesauros y el primero de su tipo. Posee términos dispuestos en círculos concéntricos que representan c/u un nivel de jerarquía, con el término superior en el centro. • EURATOM THESAURUS: incluye presentaciones gráfica y alfabética. La gráfica es un diagrama de flechas que representan las relaciones jerárquicas y asociativas dentro de cada grupo de palabras clave y sustituyen a las referencias cruzadas de un tesauro convencional. Algunas flechas envían a palabras clave relacionadas de otros gráficos. La dirección de las flechas va del nivel más genérico al más específico. Las palabras clave relacionadas pertenecientes al mismo nivel genérico, están unidas con flechas de dos direcciones. En su segunda edición, este tesauro sufrió una modificación en la disposición que determina que los términos relacionados semánticamente se agrupan en conjuntos (campos) alrededor de las palabras clave que aparecen en mayúscula. La presentación gráfica es efectiva en cualquier forma de comunicación en un tesauro como en el esquema de clasificación por facetas, aproxima físicamente los términos relacionados y permite, al indizar o ver de forma rápida el panorama completo de esas asociaciones. La presentación alfabética no lo permite y para tener una visión general se tiene que ir atrás y adelante en función de los envíos entre los términos relacionados. Pero en jerarquías muy largas, con muchas relaciones y niveles se hace difícil presentar de forma gráfica y ocupan mucho espacio. La presentación gráfica utiliza polígonos, subpolígonos y sub-subpolígonos para tratar de indicar claramente los distintos niveles jerárquicos. Polígonos relacionados van unidos por una “relación asociativa” (tipo de relación TR). Una página completa de esta presentación gráfica puede incluir varios polígonos interrelacionados. EL TESAURO CON FACETAS Las presentaciones complementarias alfabética y gráfica representan un intento de combinar las ventajas del tesauro convencional y las del esquema d e clasificación jerárquica. Otro intento en ese sentido es el tesauro con facetas que combina el tesauro alfabético con un esquema jerárquico con facetas. En un tesauro con facetas, se complementan estas dos partes. La parte con facetas incluye la relación jerárquica (estructura TG/TR. Ej.: L BIBLIOTECAS La BIBLIOTECAS ACADÉMICAS Lac BIBLIOTECAS ESCOLARES Lkf BIBLIOTECAS URBANAS* …y el resto de las relaciones aparecen en la otra parte. Esta última da la notación de cada término para que el usuario pueda ir a la parte con facetas y ver allí la correspondiente relación jerárquica. Ej.: BIBLIOTECAS MUNICIPALES USE BIBLIOTECAS URBANAS LCD* En la clasificación por facetas cada término aparece solamente una vez; sin embargo, si un término pertenece a mas de una jerarquía, en el tesauro aparecen las relaciones secundarias mediante TG (A) (término genérico es adicional). Ej.: BIBLIOTECAS INDUSTRIALES L1 TG (A) SERVICIOS DE INFORMACION DE LAS INDUSTRIAS El tesauro con facetas presenta una ventaja ya que puede utilizarse para la ordenación de libros en las estanterías de una biblioteca especializada, además de para la indización de documentos en una base de datos. El primer tesauro con facetas se debe a Aitchison (1969). La utilización conjunta del esquema de clasificación y del tesauro permite contemplar todas las “uniones jerárquicas múltiples” de los términos. En el Thesaurofacet, la parte del tesauro hace la función del índice alfabético de materias que normalmente tienen las clasificaciones por facetas convencionales. Además, la clasificación por facetas reemplaza a la estructura jerárquica tradicional de un tesauro mediante los envíos TG/TE. El Thesaurofacet se beneficia de la meticulosidad del análisis por facetas, presentando de forma consistente las relaciones más importantes entre los términos y proporcionando un estricto control de los sinónimos. La estructura de facetas facilita la búsqueda genérica y la del tesauro hace posible el acceso inmediato a un término específico y proporciona relaciones entre los términos que no aparecen en la parte con facetas. Este tipo de tesauro puede ser utilizado tanto en sistema precoordinado (usando síntesis notacional) como en uno postcoordinado. El conjunto de su estructura es ingeniosa y su elaboración cuidadosa. Sin embargo se puede plantear la duda de si realmente es necesaria una estructura tan sofisticada para la mayoría de las aplicaciones en la recuperación de información. _EVALUACIÓN DE LOS TESAUROS_ En un tesauro pueden valorarse ciertos aspectos globales, evaluándose superficialmente con un simple examen. Ej.: ¿Contiene una adecuada introducción que informe de su ámbito de aplicación y que explique sus características distintivas? ¿incluye presentaciones alternativas (secciones alfabética y jerárquica complementarias)? En un nivel superior: son correctas las relaciones TG/TE Y TR (los términos poco usuales o ambiguos son aclarados por su contexto, con calificadores, o mediante notas de aplicación? También se puede valorar que todas las relaciones tengan sus recíprocas. Se puede evaluar el tesauro, como experto, comprobando si distintas materias están representadas en él y si los términos que las representan son suficientemente específicos. Se podría hacer esta comprobación sobre una muestra aleatoria de artículos o resúmenes determinando si las palabras clave aparecen en el tesauro. Se puede comprobar si el tesauro cumple las normas internacionales sobre las convenciones singular/plural, formas de las palabras, entradas directas y otros aspectos de consistencia. También pueden considerarse aspectos estéticos de composición y tipografía. Se realizan pruebas estadísticas para evaluación de tesauros. Se evaluaron varios vocabularios controlados mediante una razón de relación y una medida de accesibilidad: la primera es la razón entre términos con referencias cruzadas (es decir, términos unidos al menos a otro término, ej.: con TR, TE O TR y el número total de términos del vocabulario.) La medida de accesibilidad es la media de reenvíos a los descriptores del vocabulario. Ej.: una medida de accesibilidad de 2,923 indica que cada término del vocabulario tiene una medida de reenvíos de aproximadamente otros tres términos. Estas medidas indican la amplitud de las uniones (es decir, referencias cruzadas) entre los términos de un vocabulario. Altas cifras seguro que corresponderán a tesauro mas útil. Estos tipos de medidas (cuantitativas), han sido desarrolladas por Van Dijk donde la razón de relación es sustituida por la de conexión: (b-a)/b_a es el nro. de descriptores del vocabulario que aparecen aislados (no unidos a otros) y b el nro. total de descriptores del vocabulario. Más cerca de la unidad, mejor tesauro. La medida de accesibilidad se convierte en razón de enriquecimiento cuyo valor recomendado está entre 2 y 5 e indica que demasiados reenvíos por descriptor (+ de 5) serían un estorbo + que una ayuda. Se propusieron nuevas medidas: 1. Razón de equivalencia: es la razón entre el nro. de no descriptores y descriptores, que es una medida de la riqueza del vocabulario de entrada. Se recomienda este valor más que uno (más términos de entrada que descriptores. 2. Razón de reciprocidad: grado en que las relaciones TG; TE Y TR tienen reenvíos recíprocos. 3. Definición representada por: (b-a)/b donde a es el nro. de descriptores que posiblemente sean ambiguos porque no tienen notas de aplicación, calificadores o relaciones jerárquicas que los definan y b es el nro. total de descriptores del vocabulario. 4. Flexibilidad: proporción de palabras en los descriptores compuestos, que aparecen en el vocabulario como descriptores o no descriptores. Valor recomendad es de 0,6 o mayor. 5. Nivel de precoordinacion: es el nro. medio de palabras por descriptor. Varía según los tesauros ingleses, franceses y alemanes. 6. El tamaño de los grupos de términos (los grupos que forman la estructura sistemática del tesauro). Se recomienda 30 a 40 términos por grupo. Algunas de estas medidas son ingeniosas y otras triviales (razón de reciprocidad) e incluso arbitrarias (flexibilidad). Los valores recomendados son arbitrarios y se establecieron a partir de tesauros considerados “buenos” y a los que se le aplicaron las distintas medidas. No se puede evaluar un tesauro si no es en condiciones de uso real. La prueba definitiva la dará la existencia de términos suficientemente específicos para representar adecuadamente la materia de los documentos y las peticiones, el grado de ambigüedad sintáctica en la base de datos y la utilidad del tesauro para encontrar todos los términos necesarios para realizar la correcta búsqueda.

No hay comentarios: