domingo, 30 de noviembre de 2014

proceso de recuperacion de informacion

Un proceso de recuperación de información comienza cuando un usuario hace una consulta al sistema. Una consulta a su vez es una afirmación formal de la necesidad de una información. En la recuperación de información una consulta no identifica únicamente a un objeto dentro de la colección. De hecho varios objetos pueden ser respuesta a una consulta con diferentes grados de relevancia.
Un objeto es una identidad que está representada por información en una base de datos. En dependencia de la aplicación estos objetos pueden ser archivos de texto, imágenes, audio, mapas, videos, etc. Muy a menudo los documentos no están almacenados en el sistema de recuperación de información, sino que están representados lógicamente.
La mayoría de los sistemas de recuperación de información computan un ranking para saber cuán bien cada objeto responde a la consulta, ordenando los objetos de acuerdo a su valor de ranking. Los objetos con mayor ranking son mostrados a los usuarios y el proceso puede tener otras iteraciones si el usuario desea refinar su consulta.
conclusion
la persona creen que porque todo en internet va rapido no hay mucha cosa que hacer pero todo tiene un proceso y un tiempo la ciencia avanza pero no debemos olvidar que que avanza a un ritmo normal y que todo lo que se logra es para mejorar la vida de las personas ya que no hace poco que existiera internet, todo se hacia manuelmente es decir hojas, papeles,ect. Ahora con internet todo es tan rapido que llega al instante,pero no tenemos que olvidar que hacer un progrma o recuperar informacion no es tarea facil como ya hemos visto en este blog.





internet



En informática, la World Wide Web (WWW) o Red informática mundial1 comúnmente conocida como la web, es un sistema de distribución de documentos de hipertexto o hipermedios interconectados y accesibles vía Internet. Con un navegador web, un usuario visualiza sitios web compuestos de páginas web que pueden contener texto, imágenes, vídeos u otros contenidos multimedia, y navega a través de esas páginas usando hiperenlaces.

Pero, ¿cómo funciona?

Ahora que tenemos claro las partes fundamentales que participan del proceso podemos empezar a explicar cómo funciona.
Internet está regido por protocolos, estos son formas de codificar y decodificar la información, por ejemplo los navegadores pueden leer lenguajes de programación como HTML, Java, Flash, PHP, y muchos más. Entonces, cualquier sitio que trabaje con protocolos compatibles puede ser leído por un computador normal. Estos son llamados transmission control protocol (TCP).
Otro dato a tener en cuenta son las Direcciones de IP, tal vez ya hayas escuchado hablar de ellas. Estas son las direcciones asignadas para cada una de las terminales de internet, con esto queremos decir que cada ordenador, cada smartphone y cada servidor cuenta con su propia IP, única e irrepetible.
De esta manera es como es tan fácil rastrear una computadora para enviar información y también recibirla.
Con esto queremos explicar que internet no es un cúmulo de información en una súper bolsa, es una red de computadoras interconectadas entre ellas al rededor del mundo. Millones y millones de computadoras que comparten su información segundo a segundo.

Los buscadores, tales como Google, Google Desktop Search, Lycos y Copernic, son algunas de las aplicaciones más populares para la recuperación de información. Básicamente hay que construir un Vocabulario, que es una lista de términos en lenguaje natural, un algoritmo que incluya las reglas lógicas de la búsqueda {Tabla de verdad} y una valoración de los resultados o cantidad de información lograda o posible. Este motor de búsqueda es pues el que permite plantear una pregunta con no menos de dos términos (en algunos casos pueden ser menos de dos términos) y mostrar los resultados mínimos y el logaritmo natural de las interacciones será alrededor de 789
Algunos de los estudiosos más destacados dentro de esta subdisciplina son Gerard Salton, W Bruce Croft, Karen Spärck Jones, Keith van Rijsbergen y Ricardo Baeza-Yates.
A veces se plantean ciertos problemas a la hora de recuperar información provocados por el uso del lenguaje natural (entre otras razones) como el silencio (debido a la sinonimia), el ruido (debido a la polisemia), homografía, ambigüedad, etc.

el modelode recuperacion booleano y calidad de la recuperacion

El modelo de recuperacion booleano es uno de los métodos más utilizados para la recuperación de información. Este modelo se basa en la agrupación de documentos, los cuales están compuestos por conjuntos de términos y en la concepción de las preguntas como expresiones booleana.
La principal característica es la consideración de la relevancia como un carácter puramente binario. Dentro del modelo, se presenta el lenguaje de consulta, y el mecanismo de indización utilizando los denominados índices inversos o archivos fantasma.
Es un modelo de recuperación simple, basado en la teoría de conjuntos y el álgebra booleana. Dada su inherente simplicidad y su pulcro formalismo ha recibido gran atención y sido  adoptado por muchos de los primeros sistemas bibliográficos comerciales. Su estrategia de recuperación está basada en un criterio de decisión binario (pertinente o no pertinente) sin ninguna noción de escala de medida, sin noción de un emparejamiento parcial en las condiciones de la pregunta.

Para el modelo de recuperacion booleano, las variables de peso de los términos índice son todas binarias. A pesar de estos inconvenientes, el modelo booleano es todavía el modelo dominante en los sistemas comerciales de bases de datos de documentos y proporciona un buen punto de partida.

En este modelo el metodo de representación, como ya hemos mencionado, es definir a los documentos como un conjunto de términos de indexación o palabras claves.
Calidad de la recuperación
A continuación se presentan unos criterios básicos para que la recuperación llevada a cabo sea de calidad.
  • Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de clasificación con el lenguaje de búsqueda, permitiendo de esta manera establecer ecuaciones de búsqueda sobre términos admitidos.
  • Exhaustividad: Es la cualidad de un sistema de información para recuperar la totalidad de los documentos relevantes que posee una colección, conforme a los requerimientos establecidos en la estrategia de búsqueda.
  • Tasa de acierto: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos relevantes de la colección
  • Relevancia: Característica de un documento recuperado que cumple con la necesidades de información.
  • Tasa de relevancia: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos recuperados
  • Pertinencia: Es la cualidad que tiene el documento recuperado de adaptarse a las necesidades de información.
  • Tasa de pertinencia: coeficiente que surge de dividir el número de documentos pertinentes recuperados, sobre el número total de documentos recuperados
  • Precisión: es la capacidad que tiene el sistema de búsqueda en coordinar la ecuación con los documentos más relevantes. De otra forma son aquellos documentos relevantes recuperados.
  • Tasa de precisión: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos de la colección

la recuperacion de la informacion

La recuperación de información es un estudio interdisciplinario. Cubre tantas disciplinas que eso genera normalmente un conocimiento parcial desde tan solo una u otra perspectiva. Algunas de las disciplinas que se ocupan de estos estudios son la psicología cognitiva, la arquitectura de la información, diseño de la información, inteligencia artificial, lingüística, semiótica, informática, biblioteconomía, archivística y documentación.
Silencio documental: Son aquellos documentos almacenados en la base de datos pero que no han sido recuperados, debido a que la estrategia de búsqueda ha sido demasiado específica o que las palabras clave utilizadas no son las adecuadas para definir la búsqueda.
Ruido documental: Son aquellos documentos recuperados por el sistema pero que no son relevantes. Esto suele ocurrir cuando la estrategia de búsqueda se ha definido demasiado genérica. 
Buscadores. Los buscadores son herramientas que permiten localizar y recuperar la información almacenada en internet. El funcionamiento es parecido a las bases de datos, almacenan las páginas con determinadas características (metadatos) y que posteriormente tras utilizar unas palabras clave emiten un listado de las más relevantes.
Directorios. Los directorios son listas organizadas que nos permite acceder a la información de forma estructurada y jerárquica. Se clasifican en categorías y el usuario enlaza de lo más general a lo más específico.


  • Metabuscadores

    Son buscadores, con la cualidad de que no sólo buscan en una única base de datos, sino que al introducir los conceptos de búsqueda hace el barrido en distintas bases de datos, de esta forma la amplitud de resultados es mayor.

  • Buscadores selectivos.

    Utilizan una base de datos especializada en una materia.

  • Programa para buscar


  • Agentes inteligentes

  • Los agentes inteligentes son herramientas que permiten localizar información de forma automática, sólo necesita que se le definan un perfil de búsqueda y donde debe lanzarla (bases de datos, sitios web, etc.) y, automáticamente va presentando un informe sobre la nueva información que va surgiendo.