lunes, 9 de diciembre de 2013

RESUMEN DE TODA LA MATERIA PARA EL FINAL DE CLASIFICACION II. BIBLIOTECARIO DOCUMENTALISTA.

RESUMEN FINAL CLASIFICACIÓN II UNIDAD I: TRATAMIENTO LÓGICO FORMAL PARA RECUPERACIÓN DE INFORMACIÓN. AUTORES DE CORRIENTE ESPAÑOLA Y TEORÍAS O POSTURAS DE REGIÓN MECOSUR. Autores Pinto Molina, García Gutiérrez, Izquierdo Arroyo sostienen que los lenguajes documentales son puntos de acceso. Los tesauros: una interrelación semántica a restablecer (herramienta mediadora). Dos teorías desarrolladas en la corriente española: “Análisis Documental” AD (Pinto Molina),” Lingüística Documental” LD (García Gutiérrez e Izquierdo Arroyo). Pinto Molina: Teoría del Análisis Documental AD Definición: Conjunto de operaciones (unas de orden intelectual y otras mecánicas y repetitivas) que afecta al contenido y a la forma de los documentos originales, reelaborándolos y transformándolos en otros de carácter instrumental o secundario que faciliten al usuario la identificación precisa, la recuperación y la difusión de aquellos. Esta transformación es el resultado de un proceso general de carácter analítico, aunque en un momento final es sintetizador o creativo que permite la conformación definitiva del documento secundario. El respaldo científico del AD es la ciencia “madre” DOCUMENTACIÖN Y la ciencia “nodriza” LINGÜÍSTICA Establece interdisciplinariedad con Lingüística, Terminología, Tecnología. El objeto de AD es doble: DOCUMENTO PREGUNTA NECESARIA PARA LOCALIZAR EL DOCUMENTO Otra dualidad que se manifiesta: dos elementos que constituyen el concepto de documento: CONTENIDO FORMA DOS VÍAS DE ANÁLISIS ANÁLISIS FORMAL ANÁLISIS DE CONTENIDO CATALOGACIÓN - INDIZACIÓN Y RESUMEN: ambos generan docum. Secundario Debido a la inconsistencia terminológica, la terminología es primordial en el tratamiento documental, que, según García Gutiérrez es la “operación intelectual o técnica utilizada para aplicar técnicas específicas normalizadas (análisis) a un colectivo documentario para hacerlo controlable y utilizable (recuperación).” El AD equivale a la primera parte del tratamiento documental y los productos de AD son los documentos secundarios: instrumentos de búsqueda entre el documento original y el usuario. El AD es el núcleo central de tareas documentales. La teoría que sustenta actividades y la metodología para llevarlas a la práctica, es la dicotomía esencial del AD DOCTRINA TÉCNICA METODOLOGÍA (TÉCNICA) PARA LLEVAR A LA PRÁCTICA LA DOCTRINA García Gutiérrez: nueva disciplina LINGÜÍSTICA DOCUMENTAL El autor realiza importantes reflexiones sobre el tratamiento documental: concepto de análisis de contenido del documento Definición de Lingüística Documental: disciplina ligada a los procesos informativos-documentales (científicos-informativos y profesionales) que tiene por objeto el establecimiento de un efectivo control documental mediante la utilización de mecanismos léxicos. Según este autor existen dos elementos constitutivos del tratamiento documental Análisis documental búsqueda y recuperación Actividades metódicas, sistemáticas y dinámicas La definición de análisis documental que aporta el autor consiste en que esta disciplina es una técnica documental que permite, mediante una operación intelectual objetiva, la identificación y la transformación de los documentos en productos que faciliten la consulta de los originales, en áreas de control documental y con el objeto último de servicio a la comunidad científica. El concepto que se destaca es la normalización, mediante lenguajes controlados (ejercer control) que son tesauros que se basan en lenguajes científicos para controlar. El control es una cuestión terminológica relacionada con mecanismos léxicos y es concepto central en la teoría: control del contenido documental mediante los lenguajes documentales. Objeto de estudio: contenido del documento Izquierdo Arroyo: redefine el concepto de: Lingüística documental El objeto de estudio es el contenido analítico de cualquier documento. Demarcar: semiótica (imagen es la solución). La semiótica documental se basa en gráficos y signos, genera medio de comunicación entre el contenido gráfico del documento y la recuperación. Demarcación con doble faz: demarcación externa como disciplina que la separa de otras y demarcación interna como disciplina que se divide en partes, LD: teoría, técnica y normativa. Definición: definición pragmática de lingüística documental: es una disciplina teórico-práctica que se ocupa del problema que plantea el almacenamiento racional y ulterior recuperación del contenido analítico de cualquier documento. Su propósito es resolver dicho problema mediante agentes cualificados y especializados que sirven sistemáticamente, corporativa e institucionalmente y en régimen normalizado de unos medios semióticos llamados lenguajes documentales. Marcos teóricos utilizados en región Mercosur  Inglesa: ligada a clasificación (no usa término indización).  Brasil: Fujita.  Corriente norteamericana Cutter, Láncaster. Clasificación e indización manual y automatizada.  Guimaraez: área de derecho con doctrina propia.  Franco-española: García Gutiérrez: análisis documental, archivología, lingüística, terminología.  Corriente nueva alemana ISKO: organización de trabajo sobre tratamiento del conocimiento. Se trabaja sobre texto, lenguaje documental.  Líneas de investigación del área técnica: a) Organización del conocimiento, recuperación de información, b) articulación entre archivología , museología, etc. UNIDAD II: LENGUAJES DOCUMENTALES La colección define el lenguaje controlado a utilizar. El lenguaje controlado es lenguaje jerárquico. Tesauros: concebidos para ser automatizados, con estructura combinatoria. Post-coordinación significa que es lenguaje post-coordinado y significa la combinación que realiza el usuario a la salida del sistema en la recuperación o en el manejo de la demanda. En contraposición con CDU que posee estructura jerárquica pero Pre-coordinación que significa combinación previa que realiza el catalogador. Fue creado para trabajar en papel. El tesauro es una herramienta terminológica formada por conjunto de términos (descriptores), para control de vocabulario. Posee recortes disciplinarios que conforman un universo cerrado (no así CDU). El tesauro contiene descriptores PALABRA CLAVE CONTROLADA Existen accidentes perniciosos y sin precisión para la recuperación de información (ambigüedades) SINONIMIA: genera silencios. POLISEMIA: genera ruidos. HOMONIMIA: (Se recupera solo una parte. (Se recuperan más registros Genera pala- El silencio es lo que no se re- de los que se necesitan. bras o frases cupera). Significados distintos.) (que se escri- ben igual pero tienen distintos significados) CONCEPTOS DE “LENGUAJE NATURAL” Y “LENGUAJE CONTROLADO” DESDE UN ENFOQUE DOCUMENTAL El lenguaje natural es el lenguaje libre, cercano al usuario, que se representa rápido y no en forma lógica y sistemática como el lenguaje controlado. De fácil actualización, funcionales a Opac’s y catálogos en línea. Sus desventajas son la ambigüedad (con alto grado en las ciencias sociales), distorsión (debido a la ambigüedad), dificultad en el control (inflación terminológica), búsquedas fallidas (muchos silencios y ruidos). El lenguaje controlado es un control lingüístico semántico en base a relaciones internas, formado por descriptores, para control del vocabulario, con una representación lógica y sistemática, que reduce la ambigüedad y aporta precisión. Sus desventajas son: el tiempo que requiere su representación, problemas para su actualización, es poco amigable para el usuario, inconvenientes en Opac’s. El tesauro propiamente dicho es presentación alfabética: descriptores ordenados alfabéticamente, debajo de cada uno se encuentran las relaciones semánticas que ls vinculan con términos (resto de descriptores). Otra ordenación es la representación sistemática. También puede ser facetado, por puntos de vista, de función (Ranghanatan) o una combinación de ambos. PARTES QUE CONSTITUYEN EL TESAURO Y ELEMENTOS QUE ACOMPAÑAN AL DESCRIPTOR EN EL CUERPO DEL SISTEMA. El tesauro se divide en tres partes: INTRODUCCIÓN, CUERPO, ÍNDICES. • INTRODUCCIÓN. En la introducción se determina su autoría, fuentes terminológicas, metodología de construcción, formas de actualización (es “herramienta viva”, según García Gutiérrez, descripción del tipo de siglas y su uso, sugerencias para el indizador. • CUERPO. En el cuerpo los nombres de los campos semánticos NO son descriptores y NO se usan como tales. Se encuentra una presentación sistemática que tiene como objetivo estructurar la disciplina o campo semántico en facetas para ayudar al indizador, a orientarlo en la materia o disciplina a encontrar (relación de pertenencia), a qué área, dominio o faceta pertenece el descriptor (mono- pertenencia o poli-pertenencia). También se da la relación de cercanía o asociativa entre dos descriptores de distinto campo semántico (ej: pienso un concepto aparece otro • INDICES PERMUTADOS. Kwic: en contexto. Significa que ordena los descriptores tantas veces como palabras significativas tengan Kwoc: fuera de contexto. Significa que saca fuera la palabra o descriptor que alfabetiza. Los elementos que acompañan al descriptor en el cuerpo del sistema son: teniendo en cuenta que el tesauro es un control lingüístico semántico en base a relaciones internas que son relaciones semánticas entre descriptores, se puede comenzar detallando que los descriptores son palabras claves controladas y para evitar los accidentes perniciosos para la recuperación y evitar ambigüedades, estos elementos son destacados como: RELACIONES SEMÁNTICAS DE EQUIVALENCIA: vinculan los términos desde el significado. Controlan sinonimia (accidente). USE, USADO POR RELACIÓN SEMÁNTICA DE EQUIVALENCIA INTERLINGÜÍSTICA: en tesauros bilingües, traducción inglés-castellano RELACIÓN SEMÁNTICA DE EQUIVALENCIA INTRALINGÜÍSTICA: dentro del idioma , controla la sinonimia. RELACIONES JERÁRQUICAS: término genérico “TG” Término específIico “TE” Género-especie-----todo-parte RELACIONES ASOCIATIVAS: término relacionado “TR” Afinidad a un mismo nivel, se evocan mutuamente. RELACIÓN DE PERTENENCIA: primera relación de pertenencia entre área temática y término. La relación semántica de pertenencia depende de que el tesauro tenga presentación sistemática con un link de la presentación alfabética a la sistemática y viceversa). NOTAS DE ALCANCE: calificador. Simple palabra o frase para especificar homógrafos. Modalidad de desambigüación. Forma de controlar polisemia. Por lo tanto, el tesauro propiamente dicho es presentación alfabética: descriptores ordenados alfabéticamente, debajo de cada uno se encuentran las relaciones semánticas que los vinculan con términos (resto de descriptores) y otra ordenación puede ser sistemática. También puede ser facetado, o puntos de vista (autor Ranghanatan) o una combinación de ambos. EVALUACIÓN DE TESAURO: Analizar: autoría, fuentes terminológicas, metodología de construcción, formas de actualización, descripción de tipos de siglas (uso), sugerencias para el indizador. TESAURO EN LÍNEA: Analizar: interfaz, hipertexto, perfiles para usuarios Interactúan, visualización gráfica con nodos (costosa), base de datos con interfaz de búsqueda, se analizan búsquedas de usuarios, sistema de metadatos, etiquetas o metaetiquetas, opac. Evaluación: link que mueve de la presentación alfabética a la sistemática. Se evalúa el soft que se utiliza: +rico +descriptores +sinónimos preocupa exhaustividad Evaluar actualización, ver si posee monopertenencia o polipertenencia, ver nivel de coordinación, si posee link a diccionario, si incluye organizaciones e instituciones Macrotesauro: se usa para ampliar conceptos, no para indizar. Evaluar si autoriza sigla con nota de alcance, si está asociado con base de datos. Si el tesauro lo indica pueden estar los descriptores auxiliares aparte. TESAURO IMPRESO TESAURO EN LÍNEA VENTAJAS VENTAJAS • No depende de luz (o de tecnología) • Trasladable • Respaldado por instituciones • Recursos externos, hipertextuales • Actualización rápida y económica • Usuarios simultáneos • Vinculación con base de datos DESVENTAJAS DESVENTAJAS • Costosos • Actualización lenta • Uso de una persona por vez • Necesita equipamiento • Depende de tecnología • No ofrece visión de conjunto TESAURO, AUTOR: VAN SLYPE Tesauro de descriptores con fuerte estructura semántica. Sus campos semánticos son un conjunto de unidades léxicas ligadas por estructura de relaciones. ELEMENTOS DEL TESAURO: TÍTULOS (temas o facetas) NO utilizados para indizar, agrupa descriptores. DESCRIPTORES: palabras o expresiones del lenguaje para indizar. NO DESCRIPTORES: equivalentes o no preferentes, sinónimos o cuasisinónimos, NO INDIZAN. DESCRIPTORES AUXILIARES: combinados con descriptores libres para formar compuestos o términos complejos. SUBDIVISIÓN DE GRUPO DE DESCRIPTORES: por facetas :se distribuyen en subconjuntos o por temas o disciplinas (más usado). DEFINICIÓN DE DESCRIPTOR Término que se toma a partir de un conjunto de sinónimos, cuasisinónimos y términos emparentados para representar un concepto que intervenga en documentos y consultas en sistemas documentales. • MODALIDAD DE DESAMBIGÜACIÓN: SINONIMIA se elimina por relación de equivalencia. • POLISEMIA se elimina por relaciones semánticas, pertenencia o grupo de pertenencia a semántico y relaciones jerárquicas. MODIFICADOR ENTRE PARÉNTESIS: se considera descriptor y se encuentra a la derecha del término ambiguo. NOTA EXPLICATIVA: precisar significación al descriptor polisémico. NOTA DE APLICACIÓN: nota histórica, notación. DEFINICIÓN DE NO-DESCRIPTOR: término incluido en tesauro, y términos emparentados con uno o más descriptores de ese tesauro por relación de equivalencia semántica para intervenir en los documentos o consultas, no para indizar, mejoran coherencia. Los descriptores auxiliares deben ser usados con independencia de otros descriptores Ej. Tipo y cálculo Cambio Se colocan en tema o facetas específicas Tipo de cambio TIPOS DE RELACIONES SEMÁNTICAS: JERARQUÍA: asimétrica, entre dos descriptores. Polijerarquía, género específico, partitivo ASOCIACIÓN: simétrica, no jerárquica PERTENENCIA: relación asimétrica. Enlaza mono y polipertenencia o jerarquía EQUIVALENCIA INTERLINGÜÍSTICA: biunívoca y simétrica. Biyectividad. Correspondencia entre dos tesauros de distinta lengua. Similitud (no traducción). EQUIVALENCIA INTRALINGÜÍSTICA: asimétrica, entre descriptor y no descriptor. Sinonimia, antonimia, monoequivalencia, pluriequivalencia. TESAURO, AUTOR: TAMAYO Sistema de organización del conocimiento. Descriptores e identificadores y no-descriptores. Equivalencia Tres tipos de relaciones Jerarquía Asociación Sintaxis postcoordinada: se coordinan en el momento de recuperación: Fichas Uniterm (Taube), estrategias de búsqueda. HISTORIA: 1951-57 (Dupont), Uniterm: creado por Taube ´59, compuesto por tres formas gramaticales: Frase nominal sustantiva sin artículo Frase nominal sustantiva y dos adjetivos Frase proposicional Identificadores: nombres propios, calificadores, nota de alcance. Relaciones: equivalencia (USE-UP), jerarquía (TG/TE), asociación (TR). Descriptores ordenados secciones Alfabética Descriptor: nexo o notación Sistemática NA UP Descriptores ordenados secciones Alfabética TG Sistemática TE TR NO DESCRIPTOR USE DESCRIPTOR Otro gráfico: flechas INDIZAR CON TESAURO TRES PASOS DE DESCRIPCIÓN DE CONTENIDO ANÁLISIS CONCEPTUAL TRADUCCIÓN REGISTRO EN DE CONCEPTOS CATÁLOGO A DESCRIPTORES BIBLIOGRÁFICO USO DE MARC O MARC 21 TESAURO, AUTORES: ALONSO-MOREIRA GONZALEZ Tesauro como herramienta de precisión. Se integran en sistema de gestión de información para mejorar pertinencia de búsquedas por las relaciones asociativa y contextuales que presentan. Tesauros conceptuales (relaciones asociadas entre descriptores y relaciones cruzadas entre descriptores y no-descriptores. Transforman en tesauros hipertextuales HTML o XML los conectan y siguen transformándolos en ontología terminológica. Red semántica neuronal es red neuronal documental, en donde despliega elementos textuales. Años ´80 en EEUU, neurordenadores en American Petroleum, Nasa, Medlar (sistema CATLIN , medicina). Sistema de gestión de la información SGD, vocabulario controlado para especificidad ONTOLOGÍAS, AUTORES: CODINA-PEDRAZA Web semántica, es proyecto. Evolución del tesauro y experimentación. Se basa en términos de lenguaje libre. Inferencia del usuario y se establece ontología con algoritmo. LANCASTER: EL CONTROL DEL VOCABULARIO EN LA RECUPERACIÓN DE INFORMACIÓN. (TESAURO) SISTEMA + UTILIZADO En el proceso de indización, dos fases intelectuales diferentes ANÁLISIS CONCEPTUAL TRADUCCIÓN En análisis conceptual, luego de la indización documentos almacenados. En traducción, se construye un índice, salida similar a la entrada en sus fases. Papel central del vocabulario en un sistema de recuperación de información: sinónimos o cuasi-sinónimos. Términos ambigüos: calificador entre paréntesis Dos tipos de relaciones PERMANENTE: género-especie=PARADIGMÁTICA O A PRIORI TRANSITORIA: término relacionado=SINTAGMÁTICA O A POSTERIORI Objetivos del control del vocabulario Control=SINÓNIMOS-CUASISINÓNIMOS- HOMÓGRAFOS. Búsqueda ampliada=RELACIONES Coincidencia e indización=USUARIOS SISTEMAS PRE-COORDINADOS O POST-COORDINADOS Clasificación en todas las actividades de recuperación=INDIZACIÓN El indizador agrupa, ej: pre-escolares- televisión- hábitos de lectura corresponde a TRES CLASES IDENTIFICADORES DE CLASE TÉRMINOS DE INDIZACION O DESCRIPTORES LENGUAJE DE INDIZACIÓN O VOCABULARIO CONTROLADO TERMINOLOGÍA CONTROLADA CLASIFICACIÓN modo de interrogar la base de datos: combinación de clases para recuperar, ej:pre-escolares-televisión, etc. FLEXIBILIDAD Diferencia fundamental entre sistemas de recuperación post-coordinados y pre-coordinados MULTIDIMENSIONALIDAD SE PIERDE MANIPULABLE IMPRESO SISTEMAS AUTOMATIZADOS NO MANIPULABLE Ej: peces, contaminación, agua, Ej: 1er. Término: peces lagos, compuesto mercurio. USUARIO MANIPULA SECUENCIA DURANE LA CONSTRUCCIÓN CLASES LIBREMENTE DEL INDICE. PUNTOS DE ACCESO LIMITADO ORGANIZACIÓN SISTEMATICA-ALFABÉTICA CLASIFICACIONES ABIERTAS Y CERRADAS ESTRUCTURA Y PRESENTACION DEL VOCABULARIO ESTRUCTURA ARBÓREA (contempla relación paradigmática: a priori) TR (establece relación sintagmática, a posteriori) ÍNDICE ALFABÉTICO APARECE EN FORMA SISTEMÁTICA(+COMPLETA) UP NA: satisface objetivos de vocabulario controlado SANGRADO PARA REPRESENTAR RELACIONES JERARQUICAS NOTACIÓN: SECUENCIA DE ESTRUCTURA SISTEMÁTICA OTRA POSIBILIDAD: REORDENAR LOS TÉRMINOS EN CONTROL DE SINÓNIMOS, ej: ORDEN ALFABÉTICO Y ENTREMEZ- Cámaras réflex de un objetivo CLARLOS CON LOS DE OTRAS UP: CÁMARAS SLR JERARQUÍAS. TG: CÁMARAS REFLEX CÁMARAS TR: BUCEO GÉNERO: TG (equipo óptico) NA: CÁMARAS PANORÁMICAS ESPECIE: TE (cámara fotogr.) (CÁMARAS CON UN OBJETIVO ESPECIAL) RELACIÓN: TR (fotografía) TG/TE: CLASIFICACIÓN CERRADA ORDENACIÓN ALFABÉTICAMENTE ABIERTA TESAURO CORRECTAMENTE ELABORADO ALFABÉTICAMENTE ABIERTO SISTEMÁTICAMENTE CERRADO Es menos costoso elaborar un microtesauro ajustado a la estructura jerárquica que favorece la compatibilidad, que elaborar nuevo tesauro en un centro o adaptar otro tesauro a las necesidades. ORGANIZACIÓN DE TÉRMINOS RELACIÓN ASOCIATIVA RELACIÓN JERÁRQUICA TR (no es jerárquica) NO Puede haber más de una jerarquía Relacionar términos que Tesauro multidisciplinario Aparecen en la misma Tesauro odontología una jerarquía Jerarquía. Términos relacionados TG/TE(GÉNERO ESPECIE) En diferente jerarquía. REENVÍO (ALFABÉTICA –SISTEMÁTICA) EJ: Burros BIBLIOTECAS TR mulas (y viceversa) TE BIBLIOTECAS ACADÉMICAS HOMOGRAFÍAS Y Relación SINTAGMATICA O NOTAS DE APLICACIÓN: A POSTERIORI Homógrafo (ej: diafragma, puede ser Músculo, fotográfico o anticonceptivo. Es recíproca (mantenimiento del tesauro) Homónimo (ej:planta ),ambos traen Problemas en la recuperación. (“véase además” en CDU, no reenvía) Homófono (ej:vaca-baca, sin problemas En la recuperación, excepto interface Oral de Base de Datos. Campo temático limitado en tesauro (ambigüedad reducida). Cuando se da la ambigüedad Se usa una verdadera nota de aplicación separada del descriptor y predicha de NA: ej: romance gótica NA: tipo de novela. Existen varias: limitación, positiva, negativa, definición verdadera. También se usa el calificador entre paréntesis (notas de aplicación en miniatura que forman parte del descriptor). PRESENTACIÓN DEL TESAURO: MAS USUAL: GRÁFICA (EUROPA) NA---- FLECHAS UP---- MAPA TERMINOLÓGICO EURATOM TG--- TE--- UNO O MAS TR--- PRIMER ORDEN ALFABÉTICO CORRECTA CLASIFICACIÓN JERÁRQUICA TESAURO CON FACETAS: combina tesauro alfabético con un esquema jerárquico (facetas). NOTACION: para ir de una presentación a la otra Se utiliza para ordenación de libros en estanterías indización de docum en base AMBAS COMPATIBLES EVALUACIÓN DEL TESAURO INTRODUCCIÓN TIPOS DE REPRESENTACIONES CORRECTAS RELACIONES JERÁRQUICAS Y ASOCIATIVAS TÉRMINOS AMBIGÜOS ACLARADOS VER RELACIONES RECÍPROCAS (ORDENADAS Y NO DEBEN FALTAR) PALABRAS CLAVE EVALUANDO CON COMPARACIÓN DE ARTÍCULOS Y RESÚMENES EVALUAR SI RESPONDE A NORMAS INTERNACIONALES ASPECTOS ESTÉTICOS DE COMPRENSIÓN Y TIPOGRAFÍA SE EVALÚA EN CONDICIONES DE USO REAL TÉRMINOS UTILIDAD PARA ENCONTRAR TÉRMINOS PARA ESPECÍFICOS PARA BÚSQUEDA CONCRETA AMBIGÜEDAD EN BASE DE DATOS NRO TOTAL DE TÉRMINOS MEDIA DE REENVIOS A DESCRIPTORES RAZÓN DE EQUIVALENCIA (RIQUEZA) RAZÓN DE RECIPROCIDAD UNIDAD III: INDIZACIÓN Es un método, cuyo sub-producto es el índice. Proceso analítico-sintético que representa el análisis temático del documento. Sintetiza la representación del contenido. Indización es extraer términos, descriptor, palabra clave controlada. Analista examina documentos Dos formas de indizar Con la búsqueda del usuario que indiza y traduce Las políticas de indización deben ser rigurosas para facilitar la indización SELECTIVIDAD—EXHAUSTIVIDAD (PROFUNDIDAD) INDIZACIÓN SOCIAL: repositorios, comités de usuarios, E Lis en bibliotecología. DOS MODOS DE INDIZAR: • EXTRACCIÒN: análisis explícito. Ambos en texto • ASIGNACIÓN: análisis implícito subjetivo con palabras clave. REGLAS BÁSICAS PARA LA INDIZACIÓN Partiendo de que la indización es un análisis conceptual, se representa el contenido a través de los conceptos. Con los artículos científicos nace este lenguaje combinatorio: palabras claves se transforman en descriptor (palabra clave controlada), por ello es indización coordinada. El usuario las coloca en un índice y las poscoordina. Así, el PRODUCTO de la indización es el ÍNDICE. SELECTIVA: hasta 5 términos o palabras clave La indización puede ser (menos nivel de profundidad) EXHAUSTIVA: + de 5 términos, hasta 11 o 12, etc. (se agregan otros conceptos, + nivel de secundarios, profun- didad , según García Gutiérrez. FRASE DOCUMENTAL Se realiza el análisis y da como resultado la frase documental. Parámetros o reglas de la indización: selectiva y exhaustiva, forman la política de indización, según Lancaster. La indización exhaustiva no conviene estando solo en la biblioteca. Se piensa en lo económico para la decisión-. Los niveles de redundancia tienen que ver con el conocimiento del área que se tenga y con la práctica. Cuando hay muchos términos para poder recuperar: SE SATURA y no siempre la exhaustividad es mejor que la selectividad. Lancaster concepto de profundidad analizar + o – profundamente un artículo especificidad. Dos modos de indizar (se refiere al texto) EXTRACCIÓN análisis de lo escrito ASIGNACIÓN análisis de lo implícito en el texto ANALIZO-INDIZO: En la extracción, lo representativo SE VE. PALABRAS CLAVES DEL TEXTO En la asignación, el indizador representa lo que él considera. Asignar un término significa que en los textos especializados, el científico deja ver otra cosa (se aprecia más en las ciencias sociales). Por lo tanto, se lee un texto y aparecen conceptos que en la lectura pueden parecer importantes para representar (pueden influir factores emocionales, carga subjetiva por parte del indizador). También se pueden complementar: extraer y asignar. Asignación es menos representativo y como hay carga de subjetividad hay que analizar si el usuario lo puede recuperar (por eso no es recomendable) El profesional de la información evalúa y también el usuario especializado y esto tiene que ver con los conceptos tan ambiguos como PERTINENCIA (fue pertinente la recuperación?). El indizador establece estrategias para que el sistema devuelva la mayor satisfacción al usuario: Por lo tanto no conviene usar ASIGNACIÓN sino la EXTRACCIÓN en modo explícito (menos riesgoso en la representación ) TIPOS DE INDIZACIÓN HUMANA – AUTOMATIZADA, ésta última en década del `60: la computadora extrae del texto, analiza los conceptos por nosotros y no puede extraer primarios y secundarios. Luego se trabaja en forma mixta: computadora y ser humano. La computadora no distingue entre singular y plural. Reconoce palabras, espacios en blanco y logra términos representativos: se LEMATIZA un léxico. Ejemplo: MEDLINE (en medicina): indización de sistema automatizado. Estadística: parte de análisis asistido por computadora y genera gráficas. Surge con la web aplicaciones abiertas Varios niveles Bases de datos de información bibliográfica Repositorios: almacenamiento del mismo investigador y de acceso libre El usuario almacena su producción. Coloca palabras claves. El profesional evalúa y genera el listado de autoridades para recuperar IMAGEN DIGITAL: Se etiqueta: describe el contenido INDIZA SELECTIVAMENTE. La indización social genera comité de usuarios tradicionales. Igualmente se usan encabezamientos de materia. Actualización permanente, mejor resultado: usuario se compromete con la información que consulta. Repositorio a nivel mundial sobre bibliotecología: E-Lis: búsqueda ampliada, presentación sistemática, grandes grupos temáticos y esquema de recuperación + amplia. En general, el bibliotecario es más tradicionalista y no acepta del todo la red social. INDIZACIÓN SELECTIVA.: se representan los conceptos principales. Se trabaja solo en título y resumen : 1er nivel TITULO: es el primer resumen del contenido. Descriptivo del contenido en el artículo científico. 2do nivel RESUMEN INDIZACIÓN EXHAUSTIVA.: se representan los conceptos principales y secundarios. Es más profundo, ahonda en el artículo científico. El criterio de elección entre un tipo de indización u otra en el centro de documentación depende de la cantidad de su personal. Según Láncaster, la riqueza de la indización tiene que ver con la riqueza de contenido de lo que se indiza. Los autores de artículo científico con habilidad para resumir, realizan el resumen al final. El documentalista lo realiza al principio, previa lectura del artículo, tiene en cuenta el resumen y palabras clave del autor. Indiza para una colección y para un usuario (metodología distinta a la del autor). Indización alimenta conceptos que forman parte de base de datos, valor que se piensa en función del catálogo que quede. Indización que represente un contenido que luego va a ser recuperado entre un cúmulo de otros. UN EJEMPLO DE INDIZACIÓN En la realización de la indización se vinculan conceptos. Ej.: en la demanda, se vincula MARCO CONCEPTUAL y MODELO VECTORIAL. Ver si el artículo (o la demanda) habla sobre ello ( palabra clave ). Si solo alude, no sirve para usuario, en caso de ser significativo, son palabras con carga semántica. No se debe recuperar palabras sin significación. Se pregunta: “¿el artículo científico habla sobre esto?”, si es concepto ambiguo o vago, no sirve para indizar. No se indizan fechas porque la indización es CONCEPTUAL . El lugar no se indiza si solo se menciona o si el concepto es muy general. Nombre de instituciones (Universidad…) es importante en algunos casos. El lugar y el nombre tienen valor si forman parte de base de datos. Se debe indizar en función del catálogo que quede. Autores no son conceptos, no se indizan. Un concepto que se conoce, que es de nuestro ámbito: ej.: bibliotecología, se indiza. Se debe discriminar y agrupar con posibilidad de combinación. INDIZACIÓN, AUTOR: VAN SLYPE. ETAPAS: indización humana en cuatro etapas.  Revisa documentos  Selecciona conceptos  Traduce conceptos  Enlaces sintácticos entre descriptores TRADUCE CONCEPTOS EN DESCRIPTORES Al idioma del documentalista Al lenguaje de indización La exhaustividad mide calidad en elección de conceptos. La especificidad mide calidad en elección de descriptores. INDIZACIÓN, AUTOR: RUBIO LINIERS CARACTERÍSTICAS Y NORMAS DE INDIZACIÓN Especificidad – combinación de temas Exhaustividad – muchas entradas facilitan búsqueda y recuperación, pero contradicen el documento hallado. Pertinencia – buen descriptor, es fiel y responde Coherencia y calidad INDIZACIÓN, AUTOR: PINTO MOLINA METADATO: dato sobre dato INTERNET SGML – FORMATO MARC NAVEGACIÓN HIPERTEXTUAL INDIZACIÓN, AUTOR: GIL LEIVA INDIZACIÓN Y RECUPERACIÓN: dos caras de la misma moneda. INDEXACIÓN: informática Consistencia, concordancia Motor de búsqueda INDIZACIÓN, AUTOR: GASTAMINZA Polisemia de imagen – doble proceso de traducción: visual al escrito y hay pérdida de significado y exceso de ruidos y distorsión. DENOTADO: objetivamente ----- CONNOTADO: sugerido, subjetivo. LANCASTER: INDIZACIÓN CONSTRUIR INDICES: Representaciones de documentos publicados en una forma que se pueda incluir en base de datos, impresa, por computadora, fichas. Ver tema del documento, lengua y origen. Cobertura, costo eficacia. Términos utilizados en la indización TESAURO LENGUAJE LIBRE ESTRATEGIA DE BÚSQUEDA Ítems recuperados relevantes o pertinentes si satisfacen necesidad del usuario. PRINCIPIOS DE INDIZACIÓN Términos asignados por el indizador. Sirven como puntos de acceso mediante los cuales el documento puede ser localizado y recuperado durante una búsqueda en un índice publicado o en una base de datos legible por computadora. La indización se complementa con redacción de resúmenes. EXTENSIÓN DEL REGISTRO Título Resumen breve resumen ampliado INDIZACIÓN SELECTIVA: cinco términos, equivale casi al título. + general. Nivel de acceso limitado. INDIZACIÓN EXHAUSTIVA: diez a veinte términos, indicación mejor del tema. + puntos de acceso. USUARIO: búsqueda + genérica, aumenta el acierto (tasa de acierto). Todos ítems Útiles, pero la precisión declina (tasa de precisión) Relación entre ítems útiles y recuperados MEJOR ACIERTO MENOS PRECISIÓN Y VICEVERSA ACIERTO ES CAPACIDAD DE RECUPERAR ITEMS UTILES PRECISIÓN ES CAPACIDAD DE EVITAR LOS ITEMS INUTILES RESULTADOS DE BÚSQUEDA. DIVIDE LA BASE DE DATOS EN DOS PARTES RECUPERADOS NO RECUPERADOS FACTORES QUE DETERMINAN SI LA BÚSQUEDA EN LA BASE DE DATOS ES O NO EXITOSA:  COBERTURA DE LA BASE  POLÍTICA DE INDIZACIÓN  CALIDAD DEL VOCABULARIO UTILIZADO  CALIDAD DE ESTRATEGIA DE BÚSQUEDA ETAPAS DE LA INDIZACIÓN DE TEMAS DOS PRINCIPALES 1.-ANÁLISIS CONCEPTUAL 2.-TRADUCCIÓN 1.- En el análisis conceptual el indizador se pregunta de qué trata el documento (tema), porqué en la colección, interés de usuarios. La publicación varía o es diferente según el centro y los usuarios. El centro + especializado: indización + a medida. ATINENCIA En el análisis conceptual es reconocer el documento “estado anómalo del conocimiento”: entrada del sistema de recuperación + que a la salida. Problemas de eficiente entrada superan los de la salida. 2.- En la traducción el indizador realiza la conversión del análisis conceptual de un documento en un conjunto de términos de indización mediante 1.- EXTRACCIÓN 2.- ASIGNACIÓN 1.- En la extracción, la información realmente ocurre en el documento, es explícita tanto en título como en resumen (UNITERM: TAUBE, contenido temático del documento). 2.- En la asignación la fuente de información no es el propio documento, es implícita pero no debe “salir de la cabeza del indizador” que debe realizar el esfuerzo de representar la sustancia del análisis conceptual. Términos extraídos de alguna forma de vocabulario controlado VOCABULARIOS CONTROLADOS: Lista de términos autorizados solo asignar al documento términos que aparecen en la lista CONTROLAR SINÓNIMOS ESTRUCTURA SEMÁNTICA DIFERENCIAR HOMÓGRAFOS REUNIR Y VINCULAR TÉRMINOS (RELACIONES JERÁRQUICAS O NO JERÁRQUICAS, ASOCIATIVAS) CDD (DEWEY) TESAURO LEM(LISTA ALFABÉTICO ALFABÉTICO Y ENCABEZAMIENTO SECUNDARIO MANIFIESTO DE MATERIAS). REMITE AL ORDENAMIENTO ESTRUCTURA JERÁRQUICA ESTRUCTURA PRINCIPAL (JERÁRQUICO) INCORPORADA CON REFERENCIAS JERÁR- QUICA IMPERFECTA. NO DISTINGUE CLARA- MENTE RELACIONES JERÁR- QUICAS Y ASOCIATIVAS LOS TRES REPRESENTAN LOS TÉRMINOS ALFABÉTICA Y SISTEMÁTICAMENTE. DISTINGUEN HOMÓGRAFOS Y CONTROLAN SINÓNIMOS. INDIZACIÓN COMO CLASIFICACIÓN Penetra en actividades asociadas con almacenamiento y recuperación. Distingue análisis conceptual y traducción, por ello, existe confusión terminológica en catalogación de materias, clasificación, indización. ESPECIFICIDAD DEL VOCABULARIO Posibilidad de combinación de términos. PRÁCTICA DE INDIZACIÓN Indizador realiza combinación de lectura y hojeo del texto. Se necesita atención a título, resumen, sumario, introducción, conclusiones. Elementos examinados: elementos usuales e importantes pueden ser pre-impresos en formularios de indización recuerdan al indizador qué términos utilizar “etiquetas” (Medline, medicina) EXHAUSTIVIDAD DE LA INDIZACIÓN FACTORES: política de indización. Administradores, precisión a cargo del indizador. EXHAUSTIVIDAD: más cobertura y más completo. Ocho a quince términos. Más cara y más precisión en búsqueda. Profundidad, especificidad y combinación de términos. El PRINCIPIO DE ESPECIFICIDAD: tema indizado por el término más específico que lo abarque completamente. No indizar de modo redundante. La INDIZACIÓN SELECTIVA: solo el contenido temático. Muchos pedidos de búsqueda: más exhaustividad. Más selectiva, más combinación en la búsqueda. DIRECTRICES En indización no hay reglas rigurosas. Hay reglas fundamentales en etapa de análisis conceptual y en etapa de traducción: se deben incluir todos los temas de interés para los usuarios. La especificidad se pueden modificar. INDIZACIÓN POST-COORDINADA Posibilita que una búsqueda combine los términos de cualquier manera. También llamado post-combinación, manipulativo Términos combinados de cualquier forma en el momento de la búsqueda Se preserva la multidimensionalidad de las relaciones entre términos. Todo término asignado a un documento tiene igual peso (ninguno es más importante que otro) INSTRUMENTOS AUXILIARES EN LA INDIZACIÓN Se emplean “ETIQUETAS” términos aplicables a muchos documentos en la base de datos. Obras de referencia  Procedimiento de indización en línea Uso de casos precedentes  Ahorra tiempo al indizador  Indizador tilda  Pre-impresión eficiente y económica UNIDAD IV: RECUPERACIÓN DE INFORMACIÓN Se investiga en línea dura algorítmica (informática, ingeniería). La línea soft, blanda es línea cognitiva, desde usuario. Se recupera mediante opac o Internet. TECNICA 1: EXACT MATCHING (TÉRMINO EXACTO) Sistemas que recuperan por interfaz de búsqueda (no distingue singular ni plural). En bases de datos bibliográficas estructuradas, altamente normalizadas busca campos Título – título Autor – autor TECNICA 2: PARTIAL MATCHING (RECUPERACIÓN POR APROXIMACIÓN) Semántico – recupera sinonimia, singular, plural, géneros. EN INTERNET: LÓGICA BOOLEANA: MODELO BOOLEANO (EXACT MATCHING) O ALGEBRA BOOLEANA. Definir primero demanda de información (“estado anómalo del conocimiento”) Interfaz de búsqueda- estrategia. GOOGLE: interacción usuario- sistema-dominio del área temática. En especializada el usuario verificativo temáticamente. Técnica browsing. Búsqueda y recuperación RECUPERACIÓN DE INFORMACIÓN: AUTOR: BAEZA-YATES ALGEBRA BOOLE (MATEMÁTICA) Modelo booleano, lógica binaria basada en exact matching. Operadores lógicos, postcoordinación. • O lógico (unión o suma: or) A or B no muy utilizado. Exhaustiva. • Y lógico (intersección o producto: and) A and B combinación + utilizado. Eficiente. • NO no lógico (negación: not) A not B menos utilizado, aspecto geográfico, ej: Latinoamérica not Brasil. OTROS BUSCADORES: proximidad: near, far, truncamiento, más de un operador. TABLAS DE VERDAD ( LÓGICA ). RECUPERACIÓN DE INFORMACIÓN: AUTORES: MOLINA-MOYA CATÁLOGO, ACCESO EN LÍNEA- OPAC- REGISTRO MARC, CONTROLADO, PUEDE PRODUCIR SOBRECARGA DE INFORMACIÓN. INDICES: combinar varios índices para acceso. Opacs actuales (segunda generación) usan exact matching y álgebra de boole. Opacs actuales (tercera generación) organizan base en forma de hipertexto. BROWSING (EXPLORACIÓN, NAVEGACIÓN PARA USAR CATÁLOGO). El usuario se mueve desde documentos conocidos a otros con características comunes. RECUPERACIÓN DE INFORMACIÓN: AUTORES: VARGAS – QUESADA PROCESO INTERACTIVO – DINÁMICO. TEORÍA COGNITIVA DE LA RECUPERACIÓN DE INFORMACIÓN. GLOBALIZAR LA RECUPERACIÓN DE INFORMACIÓN. Cinco elementos en proceso de RRI usuario, entorno, interfaz, sistema de rec.de información. Hay factores que interactúan antes de producir consulta y satisfacción de necesidad. Modelo algorítmico tradicional convive con cognitivo. Retroalimentación implícita la interacción. LANCASTER: EL LENGUAJE NATURAL EN LA RECUPERACIÓN DE INFORMACIÓN DEBATES Y CONTRIBUCIONES Se denomina posibilidad de “búsqueda en texto completo” a almacenar un texto completo legible por computadora y buscar por combinaciones. Designar palabras en un registro bibliográfico. EN CONTEXTO DE RECUPERACIÓN DISCURSO DE INFORMACIÓN OPUESTO COMÚN AL LENGUAJE CONTROLADO PALABRAS QUE OCURREN EN TEXTO IMPRESO “TEXTO LIBRE” CONSISTE EN 1.-TITULO 2.-RESUMEN 3.-EXTRACTO 4.-TEXTO COMPLETO DE PUBLICACIÓN HISTORIA: SISTEMA UNITERM: TAUBE 1951. Contenido temático de un documento, palabras simples: unitérminos, comparación de fichas. Surge luego el vocabulario controlado, tesauros. Las computadoras resuelven problemas mecánicos pero no intelectuales. Tesauros creados por falta de control del vocabulario en unitérminos. Las computadoras a fin año`50, principios del `60 mejoran la búsqueda. DOS LÍNEAS DE DESARROLLO NATIONAL LIBRARY MEDICINE DERECHO, LEYES DTO. DE DEFENSA AERONAUTICS BÚSQUEDAS POR PALABRA TÉRMINO EXTRAIDOS VOCABULARIO O COMBINACIÓN DE PALABR. CONTROLADO Y ASIGNADO A DOCU- EN ESTOS TEXTOS MENTOS POR INDIZACIÓN HUMANOS PITSBURG. BÚSQUEDA POR COMPUTADORA: TEXTOS JURÍDICOS BÚSQUEDAS EN TEXTO Y VOCABULARIO CONTROLADO CONVIVEN UN TIEMPO. BÚSQUEDAS DE TEXTO DE DOS MODOS 1 MÉTODO 2 MÉTODOB ARCHIVOS INVERTIDOS BÚSQUEDA SECUENCIAL FORMAN INDICE EN TEXTO, SIN INDICE, PALABRA POR PALABRA Se confeccionan perfiles de interés de los usuarios, se comparan con actualizaciones periódicas de la base. BÚSQUEDAS EN LENGUAJE NATURAL: SOBRE FRAGMENTOS DE PALABRAS LLAMADO TRUNCAMIENTO, EJ: PALABRAS INICIADAS CON “CONDENS”. TESAURO CONVENCIONAL: VOCABULARIO PRE-CONTROLADO FRAGMENTOS DE PALABRAS EN ESTRATEGIA DE BÚSQUEDA: PROCESO DE POS-CONTROL. LENGUAJE NATURAL VERSUS VOCABULARIO CONTROLADO El factor importante es el nro. De puntos de acceso, el resumen expandido posee + puntos de acceso que el resumen breve y este a su vez + que el título. Los resúmenes + puntos de acceso que un conjunto de descriptores asignados por indizador. Especificidad favorece precisión. +puntos de acceso, +acierto.-precisión, +puntos de acceso. Relaciones espurias: fallas asociativas, relaciones incorrectas. INDIZACIÓN EXHAUSTIVA, PUNTOS DE ACCESO CASI TRES VECES MAYOR QUE LA SELECTIVA. COSTO-EFICACIA, NEGOCIACIÓN ENTRE ENTRADA Y SALIDA.

No hay comentarios: