lunes, 9 de diciembre de 2013
RESUMEN DE TODA LA MATERIA PARA EL FINAL DE CLASIFICACION II. BIBLIOTECARIO DOCUMENTALISTA.
RESUMEN FINAL CLASIFICACIÓN II
UNIDAD I: TRATAMIENTO LÓGICO FORMAL PARA RECUPERACIÓN DE INFORMACIÓN. AUTORES DE CORRIENTE ESPAÑOLA Y TEORÍAS O POSTURAS DE REGIÓN MECOSUR.
Autores Pinto Molina, García Gutiérrez, Izquierdo Arroyo sostienen que los lenguajes documentales son puntos de acceso. Los tesauros: una interrelación semántica a restablecer (herramienta mediadora).
Dos teorías desarrolladas en la corriente española: “Análisis Documental” AD (Pinto Molina),” Lingüística Documental” LD (García Gutiérrez e Izquierdo Arroyo).
Pinto Molina: Teoría del Análisis Documental AD
Definición: Conjunto de operaciones (unas de orden intelectual y otras mecánicas y repetitivas) que afecta al contenido y a la forma de los documentos originales, reelaborándolos y transformándolos en otros de carácter instrumental o secundario que faciliten al usuario la identificación precisa, la recuperación y la difusión de aquellos. Esta transformación es el resultado de un proceso general de carácter analítico, aunque en un momento final es sintetizador o creativo que permite la conformación definitiva del documento secundario.
El respaldo científico del AD es la ciencia “madre”
DOCUMENTACIÖN
Y la ciencia “nodriza”
LINGÜÍSTICA
Establece interdisciplinariedad con Lingüística, Terminología, Tecnología.
El objeto de AD es doble:
DOCUMENTO PREGUNTA NECESARIA PARA LOCALIZAR EL
DOCUMENTO
Otra dualidad que se manifiesta: dos elementos que constituyen el concepto de documento:
CONTENIDO FORMA
DOS VÍAS DE ANÁLISIS
ANÁLISIS FORMAL ANÁLISIS DE CONTENIDO
CATALOGACIÓN - INDIZACIÓN Y RESUMEN: ambos generan docum. Secundario
Debido a la inconsistencia terminológica, la terminología es primordial en el tratamiento documental, que, según García Gutiérrez es la “operación intelectual o técnica utilizada para aplicar técnicas específicas normalizadas (análisis) a un colectivo documentario para hacerlo controlable y utilizable (recuperación).”
El AD equivale a la primera parte del tratamiento documental y los productos de AD son los documentos secundarios: instrumentos de búsqueda entre el documento original y el usuario. El AD es el núcleo central de tareas documentales. La teoría que sustenta actividades y la metodología para llevarlas a la práctica, es la dicotomía esencial del AD
DOCTRINA TÉCNICA
METODOLOGÍA (TÉCNICA) PARA LLEVAR
A LA PRÁCTICA LA DOCTRINA
García Gutiérrez: nueva disciplina
LINGÜÍSTICA DOCUMENTAL
El autor realiza importantes reflexiones sobre el tratamiento documental: concepto de análisis de contenido del documento
Definición de Lingüística Documental: disciplina ligada a los procesos informativos-documentales (científicos-informativos y profesionales) que tiene por objeto el establecimiento de un efectivo control documental mediante la utilización de mecanismos léxicos.
Según este autor existen dos elementos constitutivos del tratamiento documental
Análisis documental búsqueda y recuperación
Actividades metódicas, sistemáticas y dinámicas
La definición de análisis documental que aporta el autor consiste en que esta disciplina es una técnica documental que permite, mediante una operación intelectual objetiva, la identificación y la transformación de los documentos en productos que faciliten la consulta de los originales, en áreas de control documental y con el objeto último de servicio a la comunidad científica.
El concepto que se destaca es la normalización, mediante lenguajes controlados (ejercer control) que son tesauros que se basan en lenguajes científicos para controlar.
El control es una cuestión terminológica relacionada con mecanismos léxicos y es concepto central en la teoría: control del contenido documental mediante los lenguajes documentales. Objeto de estudio: contenido del documento
Izquierdo Arroyo: redefine el concepto de: Lingüística documental
El objeto de estudio es el contenido analítico de cualquier documento. Demarcar: semiótica (imagen es la solución). La semiótica documental se basa en gráficos y signos, genera medio de comunicación entre el contenido gráfico del documento y la recuperación. Demarcación con doble faz: demarcación externa como disciplina que la separa de otras y demarcación interna como disciplina que se divide en partes, LD: teoría, técnica y normativa.
Definición: definición pragmática de lingüística documental: es una disciplina teórico-práctica que se ocupa del problema que plantea el almacenamiento racional y ulterior recuperación del contenido analítico de cualquier documento. Su propósito es resolver dicho problema mediante agentes cualificados y especializados que sirven sistemáticamente, corporativa e institucionalmente y en régimen normalizado de unos medios semióticos llamados lenguajes documentales.
Marcos teóricos utilizados en región Mercosur
Inglesa: ligada a clasificación (no usa término indización).
Brasil: Fujita.
Corriente norteamericana Cutter, Láncaster. Clasificación e indización manual y automatizada.
Guimaraez: área de derecho con doctrina propia.
Franco-española: García Gutiérrez: análisis documental, archivología, lingüística, terminología.
Corriente nueva alemana ISKO: organización de trabajo sobre tratamiento del conocimiento. Se trabaja sobre texto, lenguaje documental.
Líneas de investigación del área técnica: a) Organización del conocimiento, recuperación de información, b) articulación entre archivología , museología, etc.
UNIDAD II: LENGUAJES DOCUMENTALES
La colección define el lenguaje controlado a utilizar. El lenguaje controlado es lenguaje jerárquico.
Tesauros: concebidos para ser automatizados, con estructura combinatoria. Post-coordinación significa que es lenguaje post-coordinado y significa la combinación que realiza el usuario a la salida del sistema en la recuperación o en el manejo de la demanda. En contraposición con CDU que posee estructura jerárquica pero Pre-coordinación que significa combinación previa que realiza el catalogador. Fue creado para trabajar en papel.
El tesauro es una herramienta terminológica formada por conjunto de términos (descriptores), para control de vocabulario. Posee recortes disciplinarios que conforman un universo cerrado (no así CDU).
El tesauro contiene descriptores
PALABRA CLAVE CONTROLADA
Existen accidentes perniciosos y sin precisión para la recuperación de información (ambigüedades)
SINONIMIA: genera silencios. POLISEMIA: genera ruidos. HOMONIMIA:
(Se recupera solo una parte. (Se recuperan más registros Genera pala-
El silencio es lo que no se re- de los que se necesitan. bras o frases
cupera). Significados distintos.) (que se escri-
ben igual pero tienen
distintos significados)
CONCEPTOS DE “LENGUAJE NATURAL” Y “LENGUAJE CONTROLADO” DESDE UN ENFOQUE DOCUMENTAL
El lenguaje natural es el lenguaje libre, cercano al usuario, que se representa rápido y no en forma lógica y sistemática como el lenguaje controlado. De fácil actualización, funcionales a Opac’s y catálogos en línea. Sus desventajas son la ambigüedad (con alto grado en las ciencias sociales), distorsión (debido a la ambigüedad), dificultad en el control (inflación terminológica), búsquedas fallidas (muchos silencios y ruidos).
El lenguaje controlado es un control lingüístico semántico en base a relaciones internas, formado por descriptores, para control del vocabulario, con una representación lógica y sistemática, que reduce la ambigüedad y aporta precisión. Sus desventajas son: el tiempo que requiere su representación, problemas para su actualización, es poco amigable para el usuario, inconvenientes en Opac’s.
El tesauro propiamente dicho es presentación alfabética: descriptores ordenados alfabéticamente, debajo de cada uno se encuentran las relaciones semánticas que ls vinculan con términos (resto de descriptores). Otra ordenación es la representación sistemática. También puede ser facetado, por puntos de vista, de función (Ranghanatan) o una combinación de ambos.
PARTES QUE CONSTITUYEN EL TESAURO Y ELEMENTOS QUE ACOMPAÑAN AL DESCRIPTOR EN EL CUERPO DEL SISTEMA.
El tesauro se divide en tres partes: INTRODUCCIÓN, CUERPO, ÍNDICES.
• INTRODUCCIÓN. En la introducción se determina su autoría, fuentes terminológicas, metodología de construcción, formas de actualización (es “herramienta viva”, según García Gutiérrez, descripción del tipo de siglas y su uso, sugerencias para el indizador.
• CUERPO. En el cuerpo los nombres de los campos semánticos NO son descriptores y NO se usan como tales. Se encuentra una presentación sistemática que tiene como objetivo estructurar la disciplina o campo semántico en facetas para ayudar al indizador, a orientarlo en la materia o disciplina a encontrar (relación de pertenencia), a qué área, dominio o faceta pertenece el descriptor (mono- pertenencia o poli-pertenencia). También se da la relación de cercanía o asociativa entre dos descriptores de distinto campo semántico (ej: pienso un concepto
aparece otro
• INDICES PERMUTADOS. Kwic: en contexto. Significa que ordena los descriptores tantas veces como palabras significativas tengan
Kwoc: fuera de contexto. Significa que saca fuera la palabra o descriptor que alfabetiza.
Los elementos que acompañan al descriptor en el cuerpo del sistema son: teniendo en cuenta que el tesauro es un control lingüístico semántico en base a relaciones internas que son relaciones semánticas entre descriptores, se puede comenzar detallando que los descriptores son palabras claves controladas y para evitar los accidentes perniciosos para la recuperación y evitar ambigüedades, estos elementos son destacados como:
RELACIONES SEMÁNTICAS DE EQUIVALENCIA: vinculan los términos desde el significado. Controlan sinonimia (accidente). USE, USADO POR
RELACIÓN SEMÁNTICA DE EQUIVALENCIA INTERLINGÜÍSTICA: en tesauros bilingües, traducción inglés-castellano
RELACIÓN SEMÁNTICA DE EQUIVALENCIA INTRALINGÜÍSTICA: dentro del idioma , controla la sinonimia.
RELACIONES JERÁRQUICAS: término genérico “TG”
Término específIico “TE”
Género-especie-----todo-parte
RELACIONES ASOCIATIVAS: término relacionado “TR”
Afinidad a un mismo nivel, se evocan
mutuamente.
RELACIÓN DE PERTENENCIA: primera relación de pertenencia entre área temática y término. La relación semántica de pertenencia depende de que el tesauro tenga presentación sistemática con un link de la presentación alfabética a la sistemática y viceversa).
NOTAS DE ALCANCE: calificador. Simple palabra o frase para especificar homógrafos. Modalidad de desambigüación. Forma de controlar polisemia.
Por lo tanto, el tesauro propiamente dicho es presentación alfabética: descriptores ordenados alfabéticamente, debajo de cada uno se encuentran las relaciones semánticas que los vinculan con términos (resto de descriptores) y otra ordenación puede ser sistemática. También puede ser facetado, o puntos de vista (autor Ranghanatan) o una combinación de ambos.
EVALUACIÓN DE TESAURO:
Analizar: autoría, fuentes terminológicas, metodología de construcción, formas de actualización, descripción de tipos de siglas (uso), sugerencias para el indizador.
TESAURO EN LÍNEA:
Analizar: interfaz, hipertexto, perfiles para usuarios
Interactúan, visualización gráfica con nodos (costosa), base de datos con interfaz de búsqueda, se analizan búsquedas de usuarios, sistema de metadatos, etiquetas o metaetiquetas, opac.
Evaluación: link que mueve de la presentación alfabética a la sistemática. Se evalúa el soft que se utiliza: +rico +descriptores
+sinónimos preocupa exhaustividad
Evaluar actualización, ver si posee monopertenencia o polipertenencia, ver nivel de coordinación, si posee link a diccionario, si incluye organizaciones e instituciones
Macrotesauro: se usa para ampliar conceptos, no para indizar.
Evaluar si autoriza sigla con nota de alcance, si está asociado con base de datos.
Si el tesauro lo indica pueden estar los descriptores auxiliares aparte.
TESAURO IMPRESO TESAURO EN LÍNEA
VENTAJAS VENTAJAS
• No depende de luz (o de tecnología)
• Trasladable
• Respaldado por instituciones • Recursos externos, hipertextuales
• Actualización rápida y económica
• Usuarios simultáneos
• Vinculación con base de datos
DESVENTAJAS DESVENTAJAS
• Costosos
• Actualización lenta
• Uso de una persona por vez • Necesita equipamiento
• Depende de tecnología
• No ofrece visión de conjunto
TESAURO, AUTOR: VAN SLYPE
Tesauro de descriptores con fuerte estructura semántica. Sus campos semánticos son un conjunto de unidades léxicas ligadas por estructura de relaciones.
ELEMENTOS DEL TESAURO:
TÍTULOS (temas o facetas) NO utilizados para indizar, agrupa descriptores.
DESCRIPTORES: palabras o expresiones del lenguaje para indizar.
NO DESCRIPTORES: equivalentes o no preferentes, sinónimos o cuasisinónimos, NO INDIZAN.
DESCRIPTORES AUXILIARES: combinados con descriptores libres para formar compuestos o términos complejos.
SUBDIVISIÓN DE GRUPO DE DESCRIPTORES: por facetas :se distribuyen en subconjuntos o por temas o disciplinas (más usado).
DEFINICIÓN DE DESCRIPTOR
Término que se toma a partir de un conjunto de sinónimos, cuasisinónimos y términos emparentados para representar un concepto que intervenga en documentos y consultas en sistemas documentales.
• MODALIDAD DE DESAMBIGÜACIÓN: SINONIMIA se elimina por relación de equivalencia.
• POLISEMIA se elimina por relaciones semánticas, pertenencia o grupo de pertenencia a semántico y relaciones jerárquicas.
MODIFICADOR ENTRE PARÉNTESIS: se considera descriptor y se encuentra a la derecha del término ambiguo.
NOTA EXPLICATIVA: precisar significación al descriptor polisémico.
NOTA DE APLICACIÓN: nota histórica, notación.
DEFINICIÓN DE NO-DESCRIPTOR: término incluido en tesauro, y términos emparentados con uno o más descriptores de ese tesauro por relación de equivalencia semántica para intervenir en los documentos o consultas, no para indizar, mejoran coherencia.
Los descriptores auxiliares deben ser usados con independencia de otros descriptores
Ej. Tipo y cálculo
Cambio Se colocan en tema o facetas específicas
Tipo de cambio
TIPOS DE RELACIONES SEMÁNTICAS:
JERARQUÍA: asimétrica, entre dos descriptores. Polijerarquía, género específico, partitivo
ASOCIACIÓN: simétrica, no jerárquica
PERTENENCIA: relación asimétrica. Enlaza mono y polipertenencia o jerarquía
EQUIVALENCIA INTERLINGÜÍSTICA: biunívoca y simétrica. Biyectividad. Correspondencia entre dos tesauros de distinta lengua. Similitud (no traducción).
EQUIVALENCIA INTRALINGÜÍSTICA: asimétrica, entre descriptor y no descriptor. Sinonimia, antonimia, monoequivalencia, pluriequivalencia.
TESAURO, AUTOR: TAMAYO
Sistema de organización del conocimiento. Descriptores e identificadores y no-descriptores. Equivalencia
Tres tipos de relaciones Jerarquía
Asociación
Sintaxis postcoordinada: se coordinan en el momento de recuperación: Fichas Uniterm (Taube), estrategias de búsqueda.
HISTORIA: 1951-57 (Dupont), Uniterm: creado por Taube ´59, compuesto por tres formas gramaticales: Frase nominal sustantiva sin artículo
Frase nominal sustantiva y dos adjetivos
Frase proposicional
Identificadores: nombres propios, calificadores, nota de alcance.
Relaciones: equivalencia (USE-UP), jerarquía (TG/TE), asociación (TR).
Descriptores ordenados secciones Alfabética Descriptor: nexo o notación
Sistemática NA
UP
Descriptores ordenados secciones Alfabética TG
Sistemática TE
TR
NO DESCRIPTOR
USE DESCRIPTOR
Otro gráfico: flechas
INDIZAR CON TESAURO TRES PASOS DE DESCRIPCIÓN DE CONTENIDO
ANÁLISIS
CONCEPTUAL TRADUCCIÓN REGISTRO EN
DE CONCEPTOS CATÁLOGO
A DESCRIPTORES BIBLIOGRÁFICO
USO DE MARC O MARC 21
TESAURO, AUTORES: ALONSO-MOREIRA GONZALEZ
Tesauro como herramienta de precisión.
Se integran en sistema de gestión de información para mejorar pertinencia de búsquedas por las relaciones asociativa y contextuales que presentan.
Tesauros conceptuales (relaciones asociadas entre descriptores y relaciones cruzadas entre descriptores y no-descriptores. Transforman en tesauros hipertextuales HTML o XML los conectan y siguen transformándolos en ontología terminológica. Red semántica neuronal es red neuronal documental, en donde despliega elementos textuales. Años ´80 en EEUU, neurordenadores en American Petroleum, Nasa, Medlar (sistema CATLIN , medicina).
Sistema de gestión de la información SGD, vocabulario controlado para especificidad
ONTOLOGÍAS, AUTORES: CODINA-PEDRAZA
Web semántica, es proyecto. Evolución del tesauro y experimentación. Se basa en términos de lenguaje libre. Inferencia del usuario y se establece ontología con algoritmo.
LANCASTER: EL CONTROL DEL VOCABULARIO EN LA RECUPERACIÓN DE INFORMACIÓN. (TESAURO)
SISTEMA + UTILIZADO
En el proceso de indización, dos fases intelectuales diferentes
ANÁLISIS
CONCEPTUAL TRADUCCIÓN
En análisis conceptual, luego de la indización documentos almacenados.
En traducción, se construye un índice, salida similar a la entrada en sus fases.
Papel central del vocabulario en un sistema de recuperación de información: sinónimos o cuasi-sinónimos. Términos ambigüos: calificador entre paréntesis
Dos tipos de relaciones PERMANENTE: género-especie=PARADIGMÁTICA O
A PRIORI
TRANSITORIA: término relacionado=SINTAGMÁTICA O
A POSTERIORI
Objetivos del control del vocabulario Control=SINÓNIMOS-CUASISINÓNIMOS-
HOMÓGRAFOS.
Búsqueda ampliada=RELACIONES
Coincidencia e indización=USUARIOS
SISTEMAS PRE-COORDINADOS O POST-COORDINADOS
Clasificación en todas las actividades de recuperación=INDIZACIÓN
El indizador agrupa, ej: pre-escolares- televisión- hábitos de lectura corresponde
a TRES CLASES
IDENTIFICADORES DE CLASE
TÉRMINOS DE INDIZACION O DESCRIPTORES
LENGUAJE DE INDIZACIÓN O VOCABULARIO CONTROLADO
TERMINOLOGÍA CONTROLADA
CLASIFICACIÓN modo de interrogar la base de datos: combinación de clases para recuperar, ej:pre-escolares-televisión, etc. FLEXIBILIDAD
Diferencia fundamental entre sistemas de recuperación post-coordinados y pre-coordinados
MULTIDIMENSIONALIDAD
SE PIERDE MANIPULABLE
IMPRESO SISTEMAS AUTOMATIZADOS
NO MANIPULABLE Ej: peces, contaminación, agua,
Ej: 1er. Término: peces lagos, compuesto mercurio.
USUARIO MANIPULA
SECUENCIA DURANE LA CONSTRUCCIÓN CLASES LIBREMENTE
DEL INDICE. PUNTOS DE ACCESO LIMITADO ORGANIZACIÓN
SISTEMATICA-ALFABÉTICA
CLASIFICACIONES ABIERTAS Y CERRADAS ESTRUCTURA Y
PRESENTACION DEL VOCABULARIO
ESTRUCTURA ARBÓREA
(contempla relación paradigmática: a priori)
TR (establece relación sintagmática, a posteriori)
ÍNDICE ALFABÉTICO
APARECE EN FORMA SISTEMÁTICA(+COMPLETA) UP NA: satisface objetivos
de vocabulario controlado
SANGRADO PARA REPRESENTAR RELACIONES JERARQUICAS
NOTACIÓN: SECUENCIA DE ESTRUCTURA SISTEMÁTICA
OTRA POSIBILIDAD:
REORDENAR LOS TÉRMINOS EN
CONTROL DE SINÓNIMOS, ej: ORDEN ALFABÉTICO Y ENTREMEZ-
Cámaras réflex de un objetivo CLARLOS CON LOS DE OTRAS
UP: CÁMARAS SLR JERARQUÍAS.
TG: CÁMARAS REFLEX CÁMARAS
TR: BUCEO GÉNERO: TG (equipo óptico)
NA: CÁMARAS PANORÁMICAS ESPECIE: TE (cámara fotogr.)
(CÁMARAS CON UN OBJETIVO ESPECIAL) RELACIÓN: TR (fotografía)
TG/TE:
CLASIFICACIÓN CERRADA
ORDENACIÓN ALFABÉTICAMENTE ABIERTA
TESAURO CORRECTAMENTE ELABORADO ALFABÉTICAMENTE ABIERTO
SISTEMÁTICAMENTE CERRADO
Es menos costoso elaborar un microtesauro ajustado a la estructura jerárquica que favorece la compatibilidad, que elaborar nuevo tesauro en un centro o adaptar otro tesauro a las necesidades.
ORGANIZACIÓN DE TÉRMINOS
RELACIÓN ASOCIATIVA RELACIÓN JERÁRQUICA
TR (no es jerárquica) NO Puede haber más de una jerarquía
Relacionar términos que Tesauro multidisciplinario
Aparecen en la misma Tesauro odontología una jerarquía
Jerarquía. Términos relacionados TG/TE(GÉNERO ESPECIE)
En diferente jerarquía. REENVÍO (ALFABÉTICA –SISTEMÁTICA)
EJ: Burros BIBLIOTECAS
TR mulas (y viceversa) TE BIBLIOTECAS ACADÉMICAS
HOMOGRAFÍAS Y
Relación SINTAGMATICA O NOTAS DE APLICACIÓN:
A POSTERIORI Homógrafo (ej: diafragma, puede ser
Músculo, fotográfico o anticonceptivo.
Es recíproca (mantenimiento del tesauro) Homónimo (ej:planta ),ambos traen
Problemas en la recuperación.
(“véase además” en CDU, no reenvía) Homófono (ej:vaca-baca, sin problemas
En la recuperación, excepto interface
Oral de Base de Datos.
Campo temático limitado en tesauro
(ambigüedad reducida).
Cuando se da la ambigüedad
Se usa una verdadera nota de aplicación separada del descriptor y predicha de NA: ej: romance gótica NA: tipo de novela. Existen varias: limitación, positiva, negativa, definición verdadera. También se usa el calificador entre paréntesis (notas de aplicación en miniatura que forman parte del descriptor).
PRESENTACIÓN DEL TESAURO:
MAS USUAL:
GRÁFICA (EUROPA) NA----
FLECHAS UP----
MAPA TERMINOLÓGICO EURATOM TG---
TE--- UNO O MAS
TR---
PRIMER
ORDEN ALFABÉTICO
CORRECTA CLASIFICACIÓN JERÁRQUICA
TESAURO CON FACETAS: combina tesauro alfabético con un esquema jerárquico (facetas).
NOTACION: para ir de una presentación a la otra
Se utiliza para ordenación de libros en estanterías indización de docum en base
AMBAS COMPATIBLES
EVALUACIÓN DEL TESAURO
INTRODUCCIÓN
TIPOS DE REPRESENTACIONES
CORRECTAS RELACIONES JERÁRQUICAS Y ASOCIATIVAS
TÉRMINOS AMBIGÜOS ACLARADOS
VER RELACIONES RECÍPROCAS (ORDENADAS Y NO DEBEN FALTAR)
PALABRAS CLAVE EVALUANDO CON COMPARACIÓN DE ARTÍCULOS Y RESÚMENES
EVALUAR SI RESPONDE A NORMAS INTERNACIONALES
ASPECTOS ESTÉTICOS DE COMPRENSIÓN Y TIPOGRAFÍA
SE EVALÚA EN CONDICIONES DE USO REAL
TÉRMINOS UTILIDAD PARA
ENCONTRAR TÉRMINOS PARA
ESPECÍFICOS PARA BÚSQUEDA CONCRETA
AMBIGÜEDAD
EN BASE DE DATOS
NRO TOTAL DE TÉRMINOS
MEDIA DE REENVIOS A DESCRIPTORES
RAZÓN DE EQUIVALENCIA (RIQUEZA)
RAZÓN DE RECIPROCIDAD
UNIDAD III: INDIZACIÓN
Es un método, cuyo sub-producto es el índice.
Proceso analítico-sintético que representa el análisis temático del documento. Sintetiza la representación del contenido.
Indización es extraer términos, descriptor, palabra clave controlada.
Analista examina documentos
Dos formas de indizar
Con la búsqueda del usuario que indiza y traduce
Las políticas de indización deben ser rigurosas para facilitar la indización
SELECTIVIDAD—EXHAUSTIVIDAD (PROFUNDIDAD)
INDIZACIÓN SOCIAL: repositorios, comités de usuarios, E Lis en bibliotecología.
DOS MODOS DE INDIZAR:
• EXTRACCIÒN: análisis explícito. Ambos en texto
• ASIGNACIÓN: análisis implícito subjetivo con palabras clave.
REGLAS BÁSICAS PARA LA INDIZACIÓN
Partiendo de que la indización es un análisis conceptual, se representa el contenido a través de los conceptos.
Con los artículos científicos nace este lenguaje combinatorio: palabras claves se transforman en descriptor (palabra clave controlada), por ello es indización coordinada.
El usuario las coloca en un índice y las poscoordina. Así, el PRODUCTO de la indización es el ÍNDICE. SELECTIVA: hasta 5 términos o palabras clave
La indización puede ser (menos nivel de profundidad)
EXHAUSTIVA: + de 5 términos, hasta 11 o 12, etc. (se
agregan otros conceptos, + nivel de secundarios, profun-
didad , según García Gutiérrez.
FRASE DOCUMENTAL
Se realiza el análisis y da como resultado la frase documental.
Parámetros o reglas de la indización: selectiva y exhaustiva, forman la política de indización, según Lancaster.
La indización exhaustiva no conviene estando solo en la biblioteca. Se piensa en lo económico para la decisión-. Los niveles de redundancia tienen que ver con el conocimiento del área que se tenga y con la práctica. Cuando hay muchos términos para poder recuperar: SE SATURA y no siempre la exhaustividad es mejor que la selectividad.
Lancaster concepto de profundidad analizar + o – profundamente un artículo especificidad.
Dos modos de indizar (se refiere al texto) EXTRACCIÓN análisis de lo
escrito
ASIGNACIÓN análisis de
lo implícito en el texto
ANALIZO-INDIZO: En la extracción, lo representativo SE VE.
PALABRAS CLAVES DEL TEXTO
En la asignación, el indizador representa lo
que él considera.
Asignar un término significa que en los textos especializados, el científico deja ver otra cosa (se aprecia más en las ciencias sociales). Por lo tanto, se lee un texto y aparecen conceptos que en la lectura pueden parecer importantes para representar (pueden influir factores emocionales, carga subjetiva por parte del indizador). También se pueden complementar: extraer y asignar. Asignación es menos representativo y como hay carga de subjetividad hay que analizar si el usuario lo puede recuperar (por eso no es recomendable)
El profesional de la información evalúa y también el usuario especializado y esto tiene que ver con los conceptos tan ambiguos como PERTINENCIA (fue pertinente la recuperación?). El indizador establece estrategias para que el sistema devuelva la mayor satisfacción al usuario:
Por lo tanto no conviene usar ASIGNACIÓN sino la EXTRACCIÓN
en modo explícito (menos riesgoso en la representación )
TIPOS DE INDIZACIÓN
HUMANA – AUTOMATIZADA, ésta última en década del `60: la computadora extrae del texto, analiza los conceptos por nosotros y no puede extraer primarios y secundarios. Luego se trabaja en forma mixta: computadora y ser humano. La computadora no distingue entre singular y plural. Reconoce palabras, espacios en blanco y logra términos representativos: se LEMATIZA un léxico. Ejemplo: MEDLINE (en medicina): indización de sistema automatizado. Estadística: parte de análisis asistido por computadora y genera gráficas.
Surge con la web aplicaciones abiertas
Varios niveles
Bases de datos
de información bibliográfica
Repositorios:
almacenamiento del mismo investigador
y de acceso libre
El usuario almacena su producción. Coloca palabras claves. El profesional evalúa y genera el listado de autoridades para recuperar IMAGEN
DIGITAL:
Se etiqueta: describe el contenido INDIZA SELECTIVAMENTE. La indización social genera comité de usuarios tradicionales. Igualmente se usan encabezamientos de materia. Actualización permanente, mejor resultado: usuario se compromete con la información que consulta. Repositorio a nivel mundial sobre bibliotecología: E-Lis: búsqueda ampliada, presentación sistemática, grandes grupos temáticos y esquema de recuperación + amplia. En general, el bibliotecario es más tradicionalista y no acepta del todo la red social.
INDIZACIÓN SELECTIVA.: se representan los conceptos principales. Se trabaja solo en título y resumen : 1er nivel TITULO: es el primer resumen del contenido. Descriptivo del contenido en el artículo científico.
2do nivel RESUMEN
INDIZACIÓN EXHAUSTIVA.: se representan los conceptos principales y secundarios. Es más profundo, ahonda en el artículo científico.
El criterio de elección entre un tipo de indización u otra en el centro de documentación depende de la cantidad de su personal.
Según Láncaster, la riqueza de la indización tiene que ver con la riqueza de contenido de lo que se indiza.
Los autores de artículo científico con habilidad para resumir, realizan el resumen al final. El documentalista lo realiza al principio, previa lectura del artículo, tiene en cuenta el resumen y palabras clave del autor. Indiza para una colección y para un usuario (metodología distinta a la del autor). Indización alimenta conceptos que forman parte de base de datos, valor que se piensa en función del catálogo que quede. Indización que represente un contenido que luego va a ser recuperado entre un cúmulo de otros.
UN EJEMPLO DE INDIZACIÓN
En la realización de la indización se vinculan conceptos. Ej.: en la demanda, se vincula MARCO CONCEPTUAL y MODELO VECTORIAL.
Ver si el artículo (o la demanda) habla sobre ello ( palabra clave ). Si solo alude, no sirve para usuario, en caso de ser significativo, son palabras con carga semántica. No se debe recuperar palabras sin significación. Se pregunta: “¿el artículo científico habla sobre esto?”, si es concepto ambiguo o vago, no sirve para indizar. No se indizan fechas porque la indización es CONCEPTUAL . El lugar no se indiza si solo se menciona o si el concepto es muy general. Nombre de instituciones (Universidad…) es importante en algunos casos. El lugar y el nombre tienen valor si forman parte de base de datos. Se debe indizar en función del catálogo que quede. Autores no son conceptos, no se indizan. Un concepto que se conoce, que es de nuestro ámbito: ej.: bibliotecología, se indiza. Se debe discriminar y agrupar con posibilidad de combinación.
INDIZACIÓN, AUTOR: VAN SLYPE.
ETAPAS: indización humana en cuatro etapas.
Revisa documentos
Selecciona conceptos
Traduce conceptos
Enlaces sintácticos entre descriptores
TRADUCE CONCEPTOS EN DESCRIPTORES
Al idioma del documentalista
Al lenguaje de indización
La exhaustividad mide calidad en elección de conceptos.
La especificidad mide calidad en elección de descriptores.
INDIZACIÓN, AUTOR: RUBIO LINIERS
CARACTERÍSTICAS Y NORMAS DE INDIZACIÓN
Especificidad – combinación de temas
Exhaustividad – muchas entradas facilitan búsqueda y recuperación, pero contradicen el documento hallado.
Pertinencia – buen descriptor, es fiel y responde
Coherencia y calidad
INDIZACIÓN, AUTOR: PINTO MOLINA
METADATO: dato sobre dato
INTERNET SGML – FORMATO MARC
NAVEGACIÓN HIPERTEXTUAL
INDIZACIÓN, AUTOR: GIL LEIVA
INDIZACIÓN Y RECUPERACIÓN: dos caras de la misma moneda.
INDEXACIÓN: informática
Consistencia, concordancia
Motor de búsqueda
INDIZACIÓN, AUTOR: GASTAMINZA
Polisemia de imagen – doble proceso de traducción: visual al escrito y hay pérdida de significado y exceso de ruidos y distorsión.
DENOTADO: objetivamente ----- CONNOTADO: sugerido, subjetivo.
LANCASTER: INDIZACIÓN
CONSTRUIR INDICES:
Representaciones de documentos publicados en una forma que se pueda incluir en base de datos, impresa, por computadora, fichas. Ver tema del documento, lengua y origen. Cobertura, costo eficacia. Términos utilizados en la indización
TESAURO LENGUAJE LIBRE
ESTRATEGIA DE BÚSQUEDA
Ítems recuperados relevantes o pertinentes si satisfacen necesidad del usuario.
PRINCIPIOS DE INDIZACIÓN
Términos asignados por el indizador. Sirven como puntos de acceso mediante los cuales el documento puede ser localizado y recuperado durante una búsqueda en un índice publicado o en una base de datos legible por computadora. La indización se complementa con redacción de resúmenes.
EXTENSIÓN DEL REGISTRO
Título Resumen breve resumen ampliado
INDIZACIÓN SELECTIVA: cinco términos, equivale casi al título. + general. Nivel de acceso limitado.
INDIZACIÓN EXHAUSTIVA: diez a veinte términos, indicación mejor del tema. + puntos de acceso.
USUARIO: búsqueda + genérica, aumenta el acierto (tasa de acierto). Todos ítems
Útiles, pero la precisión declina (tasa de precisión)
Relación entre ítems útiles y recuperados
MEJOR ACIERTO MENOS PRECISIÓN Y VICEVERSA
ACIERTO ES CAPACIDAD DE RECUPERAR ITEMS UTILES
PRECISIÓN ES CAPACIDAD DE EVITAR LOS ITEMS INUTILES
RESULTADOS DE BÚSQUEDA. DIVIDE LA BASE DE DATOS EN DOS PARTES
RECUPERADOS NO RECUPERADOS
FACTORES QUE DETERMINAN SI LA
BÚSQUEDA EN LA BASE DE DATOS
ES O NO EXITOSA:
COBERTURA DE LA BASE
POLÍTICA DE INDIZACIÓN
CALIDAD DEL VOCABULARIO UTILIZADO
CALIDAD DE ESTRATEGIA DE BÚSQUEDA
ETAPAS DE LA INDIZACIÓN DE TEMAS
DOS PRINCIPALES
1.-ANÁLISIS CONCEPTUAL 2.-TRADUCCIÓN
1.- En el análisis conceptual el indizador se pregunta de qué trata el documento (tema), porqué en la colección, interés de usuarios. La publicación varía o es diferente según el centro y los usuarios. El centro + especializado: indización + a medida.
ATINENCIA
En el análisis conceptual es reconocer el documento “estado anómalo del conocimiento”: entrada del sistema de recuperación + que a la salida. Problemas de eficiente entrada superan los de la salida.
2.- En la traducción el indizador realiza la conversión del análisis conceptual de un documento en un conjunto de términos de indización mediante
1.- EXTRACCIÓN 2.- ASIGNACIÓN
1.- En la extracción, la información realmente ocurre en el documento, es explícita tanto en título como en resumen (UNITERM: TAUBE, contenido temático del documento).
2.- En la asignación la fuente de información no es el propio documento, es implícita pero no debe “salir de la cabeza del indizador” que debe realizar el esfuerzo de representar la sustancia del análisis conceptual. Términos extraídos de alguna forma de vocabulario controlado
VOCABULARIOS CONTROLADOS:
Lista de términos autorizados solo asignar al documento términos que aparecen en la lista CONTROLAR SINÓNIMOS
ESTRUCTURA SEMÁNTICA DIFERENCIAR HOMÓGRAFOS
REUNIR Y VINCULAR TÉRMINOS (RELACIONES JERÁRQUICAS O NO JERÁRQUICAS, ASOCIATIVAS)
CDD (DEWEY) TESAURO LEM(LISTA
ALFABÉTICO ALFABÉTICO Y ENCABEZAMIENTO
SECUNDARIO MANIFIESTO DE MATERIAS).
REMITE AL ORDENAMIENTO ESTRUCTURA JERÁRQUICA ESTRUCTURA
PRINCIPAL (JERÁRQUICO) INCORPORADA CON REFERENCIAS JERÁR-
QUICA
IMPERFECTA.
NO DISTINGUE CLARA-
MENTE RELACIONES JERÁR-
QUICAS Y ASOCIATIVAS
LOS TRES REPRESENTAN LOS TÉRMINOS ALFABÉTICA Y
SISTEMÁTICAMENTE. DISTINGUEN HOMÓGRAFOS Y CONTROLAN
SINÓNIMOS.
INDIZACIÓN COMO CLASIFICACIÓN
Penetra en actividades asociadas con almacenamiento y recuperación. Distingue análisis conceptual y traducción, por ello, existe confusión terminológica en catalogación de materias, clasificación, indización.
ESPECIFICIDAD DEL VOCABULARIO
Posibilidad de combinación de términos.
PRÁCTICA DE INDIZACIÓN Indizador realiza combinación de lectura y hojeo
del texto. Se necesita atención a título,
resumen, sumario, introducción, conclusiones.
Elementos examinados: elementos usuales e importantes pueden ser pre-impresos en formularios de indización recuerdan al indizador qué términos utilizar “etiquetas” (Medline, medicina)
EXHAUSTIVIDAD DE LA INDIZACIÓN
FACTORES: política de indización. Administradores, precisión a cargo del indizador.
EXHAUSTIVIDAD: más cobertura y más completo. Ocho a quince términos. Más cara y más precisión en búsqueda. Profundidad, especificidad y combinación de términos. El PRINCIPIO DE ESPECIFICIDAD: tema indizado por el término más específico que lo abarque completamente. No indizar de modo redundante.
La INDIZACIÓN SELECTIVA: solo el contenido temático.
Muchos pedidos de búsqueda: más exhaustividad. Más selectiva, más combinación en la búsqueda.
DIRECTRICES
En indización no hay reglas rigurosas. Hay reglas fundamentales en etapa de análisis conceptual y en etapa de traducción: se deben incluir todos los temas de interés para los usuarios. La especificidad se pueden modificar.
INDIZACIÓN POST-COORDINADA
Posibilita que una búsqueda combine los términos de cualquier manera. También llamado post-combinación, manipulativo
Términos combinados de cualquier forma en el momento de la búsqueda
Se preserva la multidimensionalidad de las relaciones entre términos.
Todo término asignado a un documento tiene igual peso (ninguno es más importante que otro)
INSTRUMENTOS AUXILIARES EN LA INDIZACIÓN
Se emplean “ETIQUETAS” términos aplicables a muchos documentos en la base de datos. Obras de referencia
Procedimiento de indización en línea
Uso de casos precedentes
Ahorra tiempo al indizador
Indizador tilda
Pre-impresión eficiente y económica
UNIDAD IV: RECUPERACIÓN DE INFORMACIÓN
Se investiga en línea dura algorítmica (informática, ingeniería). La línea soft, blanda es línea cognitiva, desde usuario. Se recupera mediante opac o Internet.
TECNICA 1: EXACT MATCHING (TÉRMINO EXACTO)
Sistemas que recuperan por interfaz de búsqueda (no distingue singular ni plural). En bases de datos bibliográficas estructuradas, altamente normalizadas busca campos Título – título
Autor – autor
TECNICA 2: PARTIAL MATCHING (RECUPERACIÓN POR APROXIMACIÓN)
Semántico – recupera sinonimia, singular, plural, géneros.
EN INTERNET: LÓGICA BOOLEANA: MODELO BOOLEANO (EXACT MATCHING) O ALGEBRA BOOLEANA.
Definir primero demanda de información (“estado anómalo del conocimiento”)
Interfaz de búsqueda- estrategia.
GOOGLE: interacción usuario- sistema-dominio del área temática. En especializada el usuario verificativo temáticamente.
Técnica browsing. Búsqueda y recuperación
RECUPERACIÓN DE INFORMACIÓN: AUTOR: BAEZA-YATES
ALGEBRA BOOLE (MATEMÁTICA)
Modelo booleano, lógica binaria basada en exact matching. Operadores lógicos, postcoordinación.
• O lógico (unión o suma: or) A or B no muy utilizado. Exhaustiva.
• Y lógico (intersección o producto: and) A and B combinación + utilizado. Eficiente.
• NO no lógico (negación: not) A not B menos utilizado, aspecto geográfico, ej: Latinoamérica not Brasil.
OTROS BUSCADORES: proximidad: near, far, truncamiento, más de un operador.
TABLAS DE VERDAD ( LÓGICA ).
RECUPERACIÓN DE INFORMACIÓN: AUTORES: MOLINA-MOYA
CATÁLOGO, ACCESO EN LÍNEA- OPAC- REGISTRO MARC, CONTROLADO, PUEDE PRODUCIR SOBRECARGA DE INFORMACIÓN.
INDICES: combinar varios índices para acceso. Opacs actuales (segunda generación) usan exact matching y álgebra de boole.
Opacs actuales (tercera generación) organizan base en forma de hipertexto.
BROWSING (EXPLORACIÓN, NAVEGACIÓN PARA USAR CATÁLOGO).
El usuario se mueve desde documentos conocidos a otros con características comunes.
RECUPERACIÓN DE INFORMACIÓN: AUTORES: VARGAS – QUESADA
PROCESO INTERACTIVO – DINÁMICO. TEORÍA COGNITIVA DE LA RECUPERACIÓN DE INFORMACIÓN. GLOBALIZAR LA RECUPERACIÓN DE INFORMACIÓN.
Cinco elementos en proceso de RRI usuario, entorno, interfaz, sistema de rec.de información.
Hay factores que interactúan antes de producir consulta y satisfacción de necesidad. Modelo algorítmico tradicional convive con cognitivo.
Retroalimentación implícita la interacción.
LANCASTER: EL LENGUAJE NATURAL EN LA RECUPERACIÓN DE INFORMACIÓN
DEBATES Y CONTRIBUCIONES
Se denomina posibilidad de “búsqueda en texto completo” a almacenar un texto completo legible por computadora y buscar por combinaciones. Designar palabras en un registro bibliográfico.
EN CONTEXTO
DE RECUPERACIÓN DISCURSO
DE INFORMACIÓN OPUESTO COMÚN
AL LENGUAJE
CONTROLADO
PALABRAS QUE OCURREN EN TEXTO IMPRESO
“TEXTO LIBRE” CONSISTE EN 1.-TITULO
2.-RESUMEN
3.-EXTRACTO
4.-TEXTO COMPLETO DE PUBLICACIÓN
HISTORIA: SISTEMA UNITERM: TAUBE 1951. Contenido temático de un documento, palabras simples: unitérminos, comparación de fichas.
Surge luego el vocabulario controlado, tesauros. Las computadoras resuelven problemas mecánicos pero no intelectuales. Tesauros creados por falta de control del vocabulario en unitérminos. Las computadoras a fin año`50, principios del `60 mejoran la búsqueda.
DOS LÍNEAS DE DESARROLLO
NATIONAL LIBRARY MEDICINE DERECHO, LEYES
DTO. DE DEFENSA AERONAUTICS BÚSQUEDAS POR PALABRA
TÉRMINO EXTRAIDOS VOCABULARIO O COMBINACIÓN DE PALABR.
CONTROLADO Y ASIGNADO A DOCU- EN ESTOS TEXTOS
MENTOS POR INDIZACIÓN HUMANOS
PITSBURG. BÚSQUEDA
POR COMPUTADORA:
TEXTOS JURÍDICOS
BÚSQUEDAS EN TEXTO Y VOCABULARIO CONTROLADO CONVIVEN UN TIEMPO. BÚSQUEDAS DE TEXTO DE DOS MODOS
1 MÉTODO 2 MÉTODOB
ARCHIVOS INVERTIDOS BÚSQUEDA SECUENCIAL
FORMAN INDICE EN TEXTO, SIN INDICE, PALABRA
POR PALABRA
Se confeccionan perfiles de interés de los usuarios, se comparan con actualizaciones periódicas de la base.
BÚSQUEDAS EN LENGUAJE NATURAL: SOBRE FRAGMENTOS DE PALABRAS
LLAMADO TRUNCAMIENTO, EJ: PALABRAS INICIADAS CON “CONDENS”.
TESAURO CONVENCIONAL: VOCABULARIO PRE-CONTROLADO
FRAGMENTOS DE PALABRAS EN ESTRATEGIA DE BÚSQUEDA: PROCESO DE POS-CONTROL.
LENGUAJE NATURAL VERSUS VOCABULARIO CONTROLADO
El factor importante es el nro. De puntos de acceso, el resumen expandido posee + puntos de acceso que el resumen breve y este a su vez + que el título. Los resúmenes + puntos de acceso que un conjunto de descriptores asignados por indizador. Especificidad favorece precisión. +puntos de acceso, +acierto.-precisión, +puntos de acceso. Relaciones espurias: fallas asociativas, relaciones incorrectas.
INDIZACIÓN EXHAUSTIVA, PUNTOS DE ACCESO CASI TRES VECES MAYOR QUE LA SELECTIVA.
COSTO-EFICACIA, NEGOCIACIÓN ENTRE ENTRADA Y SALIDA.
Suscribirse a:
Enviar comentarios (Atom)
No hay comentarios:
Publicar un comentario