Búsqueda y Gestión de la Información y Recursos Multimedia: 2014

viernes, 19 de diciembre de 2014

Tema 6: Business Intelligence

El Business Intelligence es una disciplina de toma de decisiones, que estudia y gestiona datos, la información y el conocimiento.
Suele ser utilizados en empresas, donde puede haber un departamento especialmente dedicado a esto y tienen el fin de facilitar la toma de decisiones a los diferentes directivos, departamentos o empleados de una empresa.

En definitiva en este tema el principal elemento que vamos a tratar es la toma de decisiones.

Debemos tener en cuenta que al tomar una decisión, normalmente nos basamos en una información y en función de lo mas relevante de esta y según por el camino que queramos ir, tomamos una decisión u otra.

Con lo cual la información ejerce un papel fundamental en la toma de decisiones, con lo cual para poder acceder de manera eficiente a la información tendremos que tenerla bien almacenada (bases de datos, nube, etc.) y a su vez tener y seguir unos procesos de búsqueda y recuperación de la información eficientes, como hemos visto en publicaciones anteriores.

Para la toma de decisiones, normalmente se suelen seguir una serie de pasos:

Definir el problema.
Analizar el problema.
Evaluar las alternativas que tenemos.
Elegir la alternativa correcta.
Aplicar la decisión.

Para decidir por una alternativa u otra, podemos contar con unos sistemas de toma de decisiones. los cuales, son unas herramientas de software que analizan, almacenan y gestionan una serie de datos que permite que la toma de datos sea mas eficiente, o incluso pueden tomar decisiones de forma automática según unos criterios establecidos.

Algunos sistemas para la toma de decisiones son:

DSS: Estos son sistemas de soporte para la toma de decisiones. Son softwares bastante complejos que permiten ayudar en la toma de decisiones. Se presentan como una parte fundamental del Business Intelligence.

Los Dss utilizan la información base de los ERP (todos los datos de una empresa) para analizarlos y así presentarlos de forma detallada.

Algunas características de estos son:(1)

Presentan informes dinámicos y flexibles.

No requieren conocimientos técnicos.

Presentan respuestas de forma rápida.

Integración entre los sistemas/departamentos de la empresa.

La información que aporta es adaptada al usuario.

Permite obtener información histórica detallada.

GDSS: Son sistemas de toma de decisiones, como los DSS, pero con la particularidad de que estos sirven para tomar decisiones en grupo.
EIS: Son sistemas de información para ejecutivos, aportándoles datos resumidos, detallados, con unas variables específicas, etc. Tienen la finalidad de ofrecer los datos lo mas sistematizados posibles para una correcta toma de decisión.
EDSS: Estos son sistemas "expertos" de toma de decisiones. El nombre experto viene por que son sistemas de inteligencia artificial que intentan imitar o simular el razonamiento humano, y en base a esto , el sistema propone ciertas alternativas para elegir.

(1) Información obtenida de:
http://www.sinnexus.com/business_intelligence/sistemas_soporte_decisiones.aspx
https://uah-ce.blackboard.com/webct/urw/lc520020528001.tp5200205

En cuanto al concepto de Business Intelligence, debemos saber que por ejemplo toda la información de una empresa, está organizada en un sistema conocido como Data Warehouse que recoge y organiza dicha información en Data Marks.

Este sistema de gestión permite realizar indicadores, informes, data mining etc, que sumando esta información a los recursos humanos, se llega al conocido Business Intelligence.

Esquema ejemplificador de como actua el Data Warehouse:

Tenemos los datos ERP
Estos datos paran por el proceso de normalización en la que estos puedan ser bien legibles.
Estos datos normalizados pasan al Data Warehouse y son analizados.
Finalmente los datos son convertidos en Data Marks y son utilizados por el departamento o persona correspondiente.

Para profundizar mas podemos decir que para la toma de decisiones hay que tener en cuenta que se parte de una perspectiva cognitivo-conductual. En la toma de decisiones se estudia el comportamiento humano entre una serie de variables, se estudia como se ha llegado o en base a que información se toma una decisión u otra y se aplica a una serie de sistemas informáticos para que lo tengan en cuenta y así poder ayudar en otras decisiones proponiendo alternativas o las mejores propuestas.

Normalmente se suele establecer la teoría de decisión normativa (motivación humana para llevarla a cabo) y en base a que información se guían para llegar a las decisiones.

Hay que tener en cuenta que la toma de decisiones en una empresa es diferente según el área de la empresa, con lo cual podemos distinguir entre:

Nivel estratégico: El cual esta dirigida para la ayuda de toma de decisiones de altos cargos de una empresa, o los directores de departamentos. Estas decisiones a partir de diversos datos, pueden influenciar en la dirección global de la empresa, con lo cual es importante tomar buenas decisiones ya que pueden servir para impulsar a una empresa o por el contrario, perjudicarla.
Nivel táctico: Estas decisiones también tienen un gran impacto en la empresa, pero a un nivel mas local y no influyen en las decisiones de nivel estratégico.
Nivel Operativo: Al haber decisiones a nivel táctico, estas podrían definirse como las decisiones basadas en ese nivel táctico para llevarlas a cabo de la manera mas eficiente.

Siguiendo en el concepto de decisiones, nos encontramos con que podemos tener:

Decisiones programadas: Que pueden ser de carácter informático o no, y se establecen en función de una información.

Decisiones NO programadas: Estas suelen ser mas especificas y menos frecuentes, es decir, en esta, las variables son menos frecuentes y no son tan automatizadas como en la anterior, con lo cual necesitan ser mas reflexionadas y consensuadas para elegir la decisión correcta.

En cuanto al Business Intelligence hay que decir que no es una rama específica de la informática, sino que es un área interdisciplinar en la que trabajan profesionales de varias ramas, en las que se incluyen informáticos.

El BI permite recopilar datos para:

Observar en que dirección va la empresa o detectar un problema
Saber porque ha sucedido o sucede
Predecir que ocurrirá y poder planear un plan de actuación ante esto.
Consensuar en equipo que es lo que deberían hacer entre todos
Decidir, ante unas circunstancias determinadas, el camino a seguir.

En cuanto al Data Wharehouse (2) o como también es conocido: Almacén de datos empresariales (EDW), podemos decir que se usa para depurar e integrar información que proviene de distintos lugares como pueden ser diferentes bases de datos ajenos a la empresa, de la propia empresa pero hay que "normalizarlos, etc. Para que así información sea mas homogénea y se pueda tener una mayor velocidad a la hora procesar y analizar, y permita ofrecer diferentes perspectivas.

Un Data Warehouse se caracteriza por ser:

Integrado: Donde los datos deben ser convertidos de manera homogénea, creando estructuras propias que facilitan el trato de esta. Según hacia quien va dirigida la información la estructura varía en función de las necesidades.
Temático: Los datos de estructuran y organizan según una temática determinada, con el fin de facilitar el acceso y la forma en la que van a ser representados para que puedan entenderlo los destinatarios.
Histórico: En el Data Warehouse el tiempo es la parte implícita la información. Eso puede servir por ejemplo, para analizar tendencias. Esto permite analizar en el tiempo lo que ha ocurrido y así poder compararlo en otro determinado momento en tiempo distinto.
No Volatil: La información comprendida en el Data Warehouse permite ser leída, pero no modificada, con lo cual esta información es permanente.

Los Data Warehouse tienen la característica de usas metadatos, que es el tener datos sobre los mismo datos. Esto permite obtener información sobre esos datos y eso permite obtener información de estos de manera mas sencilla y eficiente.

Los objetivos de los metadatos pueden ser:

Ayudar al usuario final a encontrar y acceder a los datos del Data Warehouse con un lenguaje especifico y otorgando un significado a esos datos. Para ello, existen herramientas como los DSS o EIS.
Ayudan a los encargados técnicos del Data Warehouse en aspectos de auditoría. (Gestión, administración, elaboración de programas para recuperar información, etc.)

Tambien hay que tener en cuenta, que dentro del concepto de Data Warehouse tenemos el ETL (Extraccion, transformación y carga) que nos permite entender como funciona.

Extracción: Obtiene la información de distintas fuentes, tanto internas como externas.
Transformación: Normaliza, homogeneización, depuración y agrupación de la información.
Carga: Organiza y actualiza los datos y metadatos.

(2) Información obtenida de:

http://www.sinnexus.com/business_intelligence/datawarehouse.aspx

https://uah-ce.blackboard.com/webct/urw/lc520020528001.tp5200205

En cuanto al Data Mart, "es una base de datos departamental, especializada en el almacenamiento de los datos de un area de negocios específica" (2). Tiene la finalidad de ayudar a un determinado departamento a tomar decisiones acertadas. Para ello los datos son estructurados, agrupados y ordenados para que los usuarios puedan acceder de forma detallada, rápida y eficiente.

Para que los datos estén bien estructurados, pueden estar montados sobre una base de datos OLTP o OLAP.

OLTP: Se le añaden filtrados y agrupaciones extra para mejorar el rendimiento, según el área de la empresa a la que corresponda.

OLAP: Se basan en cubos OLAP que se construyen añadiendo características y "filtros" según par el área que se orienten.

Los datamarts que están dotados con estas estructuras óptimas de análisis presentan las siguientes ventajas: (3)

Poco volumen de datos
Mayor rapidez de consulta
Consultas SQL y/o MDX sencillas
Validación directa de la información
Facilidad para la historización de los datos

(3) Información obtenida de:

http://www.sinnexus.com/business_intelligence/datamart.aspx

http://es.wikipedia.org/wiki/Data_mart

El cuadro de mando integral o Balanced Scorecard "es una herramienta de control empresarial que permite establecer y monitorizar los objetivos de una empresa y de sus diferentes áreas o unidades"(4).
Se puede considerar como una aplicación en la cual transforma la información en objetivos y alternativas para que llegue esta información a un usuario determinado. Esto les facilitan las decisiones a que se les presentan los datos con diferentes alternativas, con el fin de que el usuario al que le llega tome la decisión mas acertada en función de los objetivos previstos.

Las propias herramientas como los DSS suelen llevar cuadros de mando.

Representación del cuadro de mando:

(4) Información obtenida de:
http://www.sinnexus.com/business_intelligence/cuadro_mando_integral.aspx
http://es.wikipedia.org/wiki/Cuadro_de_mando_integral

En conclusión, debemos tener en muy en cuenta que la información suele ser la base de todo. En este caso, para la toma de decisiones es muy importante la información que se tenga, como se tenga y como se pueda acceder a ella y como nos la encontramos representada.

Por ello las empresas, que en muchas ocasiones, una decisión puede suponer un crecimiento o decrecimiento de esta, le dan una gran importancia a estas decisiones, con lo cual va ligado a la importancia que deben darle al procesamiento de la información y a la ayuda que esta supone para elegir una opción u otra.

Por ello el Business Intelligence en una empresa como un determinado área de una empresa, cada vez se da en mas casos y se le da mas importancia.

Estos avances cada vez mayores en asesoramiento y facilidades que se otorgan a los usuarios para la toma de decisiones, cada vez son mas valorados y permiten mejorar en eficiencia y rendimiento a las empresas, fijando unos objetivos premeditados en parte gracias a esto.

Con lo cual, otra vez nos damos cuenta que la información es un concepto clave en la sociedad en la que nos encontramos y si nos ponemos en el lugar de las empresas que cada vez deben ser mas competitivas e intentan ser las primeras del sector en el que se encuentren, podemos concluir que gracias a las facilidades que desde ya hace años se nos vienen ofreciendo gracias a las nuevas tecnologías y en concreto la informática, para que una empresa sea realmente puntera en el mercado, es dificil que compita con otras que no usen estas herramientas y recursos.

Como preguntas abiertas para finalizar el tema:

¿Crees que las empresas que tienen Business Intelligence podrían estar un escalón por encima de aquellas que no lo tienen? ¿Porqué?
¿Piensas que el trabajo de se desempeña en el Business Intelligence podría hacerse solo con recursos humanos?
Viendo de manera general como funciona el Business Intelligence, ¿como crees que se podrá seguir evolucionando en este área?

miércoles, 26 de noviembre de 2014

Tema 5: Recuperación de la Información

La recuperación de la información se produce mediante búsquedas en buscadores con una formulación de palabras, frases o preguntas, de manera racional y lógica lo más adaptadas y concretas a lo que se desea buscar.

Para llevar a cabo el proceso de recuperación de la información hay que tener conciencia que se siguen una serie de pasos desde que el usuario tiene una necesidad de información, hasta que recibe la información solicitada. Los pasos a seguir "a grosso modo" serian los siguientes.

El usuario tiene la necesidad de obtener información.
Introduce en un buscador la palabra, frase o pregunta lo más concreta posible con las estrategias de búsqueda más adecuadas posibles.
La solicitud se envía a un servidor web (hay que tener en cuenta que el usuario tendrá un equipo con un servidor conectado a Internet).
La solicitud se envía a unos servidores de índices, en los cuales hay una serie de palabras o expresiones claves para enviarlo al lugar correspondiente.
La solicitud se envía a las páginas guardadas por los buscadores que tienen información relevante sobre el tema especificado en la búsqueda.
Con la información obtenida se crea una lista con las páginas seleccionadas que abarcan el tema concreto.
Finalmente se devuelve al usuario el resultado de la búsqueda.

Imagen demostrativa:

Hay que tener en cuenta que todo este proceso se realiza recorriendo las bases de datos y servidores que pueden estar recogidos en cualquier lugar del mundo. Visto así podríamos ver que este proceso “debería” tardar mucho debido a la distancia a la que pueden encontrarse un paso del siguiente, así como procesar bien la información de la búsqueda.

Pues el resultado de esta búsqueda como podemos comprobar con un ordenador que funcione en perfectas condiciones y con una buena conexión a Internet, tarda mili-segundos en realizarse todo el proceso.

Esto se debe en gran parte a los avances tecnológicos con los que nos encontramos en la actualidad y los grandes avances en recuperación de la información.

Pero nos podríamos preguntar ¿Cómo es posible recuperar la información a cerca de un tema concreto y seleccionando la información relevante ante la que no tiene “importancia” en tan poco tiempo?

Es posible gracias a que estos avances, en general han ido evolucionando debido a los progresos que se han ido llevando a cabo por investigadores de la materia y que hasta nuestros días han concluido en que se puede recuperar esta información de manera automática gracias a que se han desarrollado una serie de estrategias para recuperar la información relevante mediante una serie de formulas matemáticas que permiten concretar criterios de selección y “atacar” las bases de datos de forma eficiente.

Otra forma de explicarlo podría ser, que un usuario al escribir en el cuadro de búsqueda de un buscador lo que quiere encontrar, esas palabras se transforman en una serie de ecuaciones matemáticas que permiten reconocer las ideas clave de lo que se busca, para luego que en esas bases de datos se pueda identificar la información importante acerca del tema que el usuario busca. Una vez “atacadas” las bases de datos y reconocida la información útil se vuelve a traducir la información a modo de una lista de distintas páginas web (distintas opciones) sobre el tema especifico, en el mismo lenguaje que el usuario había buscado.

Para introducirnos de manera más profunda en el proceso de recuperación iremos paso a paso:

En primer lugar, para que se produzca este proceso de recuperación de la información es necesario que un usuario tenga la necesidad de buscar información.

Para satisfacer esa necesidad, si decide consultar información en Internet, se parte de que el usuario realizará una consulta en un buscador.

Esta consulta, normalmente se hace con un lenguaje natural, adaptado para acercarse lo máximo posible con las palabras que emplee a unos términos que le permitan recuperar la información de forma concreta. Para ello, se tiene en cuenta el grado de cualificación del usuario para concretar los términos con una precisión importante, adaptar el lenguaje, utilización de la búsqueda avanzada que permiten los buscadores, seleccionar un tipo de buscador u otro, contrastar información recuperada y adaptar la búsqueda en caso de que no obtenga lo que desea, etc.

Una vez formulada la consulta teniendo en cuenta la precisión y calidad de la búsqueda según el usuario, el sistema deberá crear un sistema de procesamiento de la búsqueda que consiste en una serie de estrategias que sigue para concretar más la búsqueda como por ejemplo seleccionar las palabras de una frase que tienen más relevancia, eliminar las palabras “vacías”, adaptar la morfología de las palabras, etc.

A continuación una vez procesada la consulta se inicia el proceso de “ataque” a las bases de datos mediante una serie de técnicas o estrategias matemáticas , también conocidos como modelos de recuperación de la información, para que la recuperación sea lo más eficiente y rápida posible.

Antes de introducirnos en la explicación de los modelos, debemos tener en cuenta varios aspectos a cerca de las bases de datos. En estas bases de datos es necesario que la información o documentos ya hayan sido indexadados previamente, organizados y estructurados por unos gestores de bases de datos como pueden ser los conocidos Oracle o My SQL para que así los “ataques” sean más eficientes.

En muchas ocasiones los servidores presentan unos índices de estos documentos, en los cuales se encuentran una serie de términos, palabras clave o tesauros que facilitan dicha búsqueda.

Tener los resultados ordenados, es un factor clave para que la recuperación se haga de forma eficiente y en el menor tiempo posible. Pero hay otras estrategias o características de los documentos que también es importante que se tengan en cuenta para que la información se recupere de manera más efectiva, como es que los algoritmos de búsqueda tengan en cuenta los siguientes criterios de selección:

Tienen en cuenta los enlaces (hipervínculos).
Estructura HTML.
Tipo de lenguaje (JavaScript, etc.).
Calidad de la información.
Idioma.
Cantidad de documentos indexados.
Actualización periódica de la web.
Duplicados de web (solo se elegiría una)
Depende de si el texto en un documento va seguido o fragmentado (se puede fragmentar por usar lenguaje JavaScript.
Popularidad de la página.

A continuación vamos hablar de algunos de los modelos de recuperación de la información. Estos modelos por lo general se basan en procesos de “ataque” a las bases de datos para obtener información relevante sobre un tema concreto que en el que un usuario ha definido mediante la consulta. Estos modelos normalmente se rigen por unos algoritmos matemáticos que les “guían” a seleccionar los documentos más relevantes.

Los modelos de recuperación suelen basarse en una serie de características o términos comunes para diferenciar elementos en la búsqueda como son:

(D): “Es el conjunto de representaciones lógicas de los documentos guardados”
(Q) = (Queries): “Conjunto de vistas lógicas de las necesidades del usuario”
(F): En este apartado se crean unos modelos sobre documentos, queries y su relación

Modelo vectorial: Espacios vectoriales y álgebra”
Modelo Probabilístico: Teorías de probabilidad, modelos bayesianos, etc.

(R (Qi, Dj)): Es la función de la clasificación. Crea el orden en los documentos en función de los queires.

Información extraída de: http://slideplayer.es/slide/1856908/ (diapositiva 16)

Debemos tener en cuenta que los documentos, en función de lo que se busca, pueden contener unos términos que son los que se establecen como relevantes, del tema seleccionado. Sin embargo puede que haga dos documentos donde podemos encontrar esos términos, pero la relevancia puede ser distinta en uno u otro, debido a que los términos pueden tener más peso en uno que en otro. De modo que a más peso, más relevancia.

Los modelos distintos modelos son los encargados de seleccionar los términos, otorgarles peso y establecer una relación entre ellos, con lo cual de esto modo priorizan un documento ante otro.

Terminología:

(Ki)= Indice/Termino
(Dj)= Documento
(Wij): Peso de Ki-Dj

Método Booleano (1)

Este modelo es muy antiguo o clásico pero aun así es uno de los más utilizados en la actualidad. Está basado en la teoría de conjuntos y álgebra de boole.

Este modelo explicado de forma general consiste en que la búsqueda o “ataque” a los documentos lo hace con el fin de encontrar una serie de términos específicos para encontrar una relevancia con lo que se pide en la consulta.

Para llevar a cabo esto, utiliza una serie de estrategias representadas como fórmulas matemáticas que por ejemplo se de manera muy básica pueden representarse así: Se presenta un término como Ti, si este término se encuentra en el documento se representa como Di y si no se encuentra se representa como NONti.

Los términos utilizados que el usuario presenta en la consulta de manera lógica pueden ser “traducidos” del siguiente modo: (Y, O NO) traducidos como (AND, OR, NOT)

Este modelo presenta unas ventajas como:

Fácil de emplearlo y entender el funcionamiento
Utiliza conceptos que son intuitivos
Utiliza formalismos.

Pero también presenta desventajas como:

Puede recuperar mucho o muy pocos documentos
Difícil clasificarlos como mas importante o menos.
Es difícil traducir todo el mensaje booleano
A todos los términos se les otorga el mismo peso
Modelo que recupera datos más bien que información.
Puede ser confuso ya que al realizar una búsqueda puedes escribir perros y gatos, (perros AND gatos), cuando en realidad debería ser (perros OR gatos).

(1) Información obtenida de:
http://es.wikipedia.org/wiki/Modelo_booleano
http://www.slideshare.net/caritosuarez/recuperacin-de-informacin-de-la-teora-a-la-prctica
http://slideplayer.es/slide/1856908/

Modelo Vectorial (2)

Este modelo considera que a cada término se le aplica un valor vectorial. Esto se puede explicar cómo que da más o menos relevancia a un documento en función de cada término.

*Un vector representa a un documento o query.

Un documento tendrá mayor o menor relevancia en función de los ángulos de los vectores en cada documento, comparando documentos.

Los ángulos se crearán según el vector (término) que se busque.

Si hay mucha frecuencia de vectores un documento tendrá mas peso. Pero si hay muchos documentos con esos vectores el peso tenderá a disminuir.

Para realizar el proceso se crean una serie de algoritmos muy complejos, difícil de entender para un usuario común.

Este modelo presenta una serie de ventajas:

Presenta un ranking de documentos con en función de relación de términos y peso.
Es más específico que otros modelos.

Desventajas:

Los documentos con un gran volumen quedan poco representados debido a que presentan pocos valores en común.
Puede considerar partes de palabras como términos aceptados, cuando en realidad no lo son.
Si se utiliza un lenguaje distinto como un sinónimo ante el término que se busca, da como negativo.

(2) Información obtenida de:
http://es.wikipedia.org/wiki/Modelo_de_espacio_vectorial
http://slideplayer.es/slide/1856908/

Modelo Probabilístico (3)

Este modelo establece unos términos relevantes en función de la consulta, como los otros vistos, y en función de si aparece o no se le otorga más relevancia al documento.

En función de la probabilidad en que un documento pueda ser más relevante que otro los categoriza y los presenta como resultado al usuario.

Una vez ofrecido al usuario, según si le ha servido el documento (ha sido relevante o no) va guardando los más relevantes para así en la siguiente búsqueda ofrecerlos en un lugar más adecuado del ranking de respuestas.

Este modelo puede presentar resultados correctos o útiles si se tienen almacenados grandes cantidades de respuestas de usuarios como relevantes o no, sin embargo si eres de los primeros que han obtenido las respuestas puede no ser información valida, e incluso lo que para una persona puede ser válido para otra no lo es.

Estos son algunos de los modelos más utilizados para la recuperación de la información. Una vez recuperados, los resultados han de presentarse al usuario de forma ordenada de manera decreciente en función del grado de relevancia que el sistema haya determinado.

Para representarlos en un ranking se tienen en cuenta una serie de aspectos como si a usuarios anteriores les han sido relevantes, exhaustividad, numero de clics, nivel de enlazamientos, etc.

Y una vez que le es ofrecida al usuario la información, si esta no es lo suficiente relevante, el usuario deberá volver hacer una consulta puntualizando, concretando aspectos e intentando acercarse lo máximo posible a lo que realmente busca.

Hemos podido comprobar “muy por encima” el proceso que se tiene que desarrollar para recuperar la información. Podemos ver la gran complejidad y trabajo que tiene este ámbito de la informática, y cuanto más investiguemos sobre este tema más complejo aun se hace con lo cual es importante concienciarse del número de horas, días y años, investigadores, trabajadores, recursos y demás, que se han tenido que invertir para que un usuario común sin ningún tipo de conocimientos, pueda obtener información de cualquier parte del mundo, estructurada y adaptada en el mayor grado posible a que sea relevante con lo que estamos buscando, y todo esto en un solo clic en el ratón obtenemos los resultados en cuestión de milisegundos.

(3) Información obtenida de: http://es.wikipedia.org/wiki/Modelo_probabil%C3%ADstico

Imagen demostrativa del proceso completo:

Como opinión personal, considerándome un usuario con unos conocimientos básicos de informática, a medida que voy investigando tanto en este como en los demás temas, me voy dando cuenta de la ignorancia que tengo y que hay en general sobre estos temas y me voy concienciando de los grandes progresos y avances que se han ido desarrollando, todo el trabajo que hay invertido, además de recursos y demás trabajo “oculto” para los que no nos dedicamos a esto, y pienso que es importante que las personas que hablan de la informática como que es algo sencillo que cualquiera puede conocer bien a base de tutoriales, (como he escuchado), que dejen la ignorancia a un lado y si de verdad quieren saber lo que hay detrás de lo que tenemos actualmente, que se informen.

Relacionado con este tema pienso que aún queda por mejorar, ya que hasta que no se descubra el modo en el que se pueda recuperar la información totalmente relevante de forma precisa, eficiente y rápida, aun se debe seguir investigando.

Planteo algunas cuestiones abiertas para finalizar sobre este tema:

¿Realmente crees que es posible que algún día se pueda recuperar la información concreta que un usuario busca?
Sería acertado proponer que por ejemplo: un buscador ofreciera unas respuestas ante una consulta, ante esas respuestas el mismo buscador te fuera haciendo preguntas específicas y el usuario contestando, hasta llegar a los documentos más relevantes, ¿Qué opinas?
¿Desarrollar un sistema en el que puedas realizar la consulta en otro método de comunicación que no sea el escrito y que el sistema pudiera detectar realmente las necesidades del usuario podría ser una opción?
¿Qué mas ideas propondrías?

Documentación utilizada para desarrollar todo el tema

viernes, 7 de noviembre de 2014

Tema 4. Acceso a la Información: Búsqueda

Los buscadores los podemos definir de forma general como sistemas de búsqueda de información de los distintos servidores que existen.

Como ya es sabido, Google es de los buscadores más conocidos con un 65% aproximadamente del total de personas que lo utilizan, seguido por Yahoo con un 16%, después Bing con un 13% y el resto lo componen los diferentes buscadores que existen.

Enlace para ver una tabla comparativa sobre los buscadores mas conocidos

Pero a parte de esos buscadores “generales” podemos encontrar otro tipo de buscadores como pueden ser:

Buscadores enlazados: los cuales comparten información.
Metabuscadores: Estos buscan en otros buscadores y no tiene una base de datos propia, sino que usa la de los demás buscadores.

Estos últimos al ser buscadores sobre otros buscadores en muchas ocasiones lo que hacen es especializarse sobre un tema específico y en el resultado de la búsqueda que ofrecen solo salen resultados acerca de un tema concreto. Por ejemplo el metabuscador "Trivago" analiza las webs que ofrecen servicios de hoteles y ese las selecciona según calidad, precio, etc.

Estos metabuscadores pueden presentar ventajas ya que pueden ahorrarnos tiempo en búsquedas y nos muestran gran cantidad de ofertas ordenadas de diferentes webs que puede que incluso muchas no conociéramos, sin embargo también tiene sus desventajas, ya que estos metabuscadores buscan en función de unos criterios en las diferentes webs, pero en el caso de que alguna web ofrezca unos servicios sobre esa temática y no cumpla los requisitos de búsqueda, esa información se pierde, con lo cual eso habría que tenerlo en cuenta a la hora de buscar en esos metabuscadores.

Como hemos visto, Google se posiciona en cabeza como el servidor mas utilizado y conocido. Ante esto ¿podemos decir que es así porque Google es el mejor buscador?

Pero debemos plantearnos las siguientes cuestiones. Muchos de los usuarios a nivel básico de informática ¿realmente saben cual es más bueno que otro? ¿En que se basan para decirlo?

Es posible que muchos se puedan guiar por la respuesta que ofrecen en función de lo que se busca, o por el número de páginas a elegir, quizás sea por la velocidad al buscar o si conoces más o menos la respuesta de lo que buscas, el buscador que más se asemeje a esa idea ¿será mejor?

Ahí sería un buen tema para plantearnos sobre que buscador puede ser “mejor o peor” en función de lo que entendamos nosotros como mejor o peor. Sin embargo hay otro aspecto en cuanto a la información que ofrecen los buscadores se refiere, y es: ¿Debemos tomar como verdadero todo lo que nos encontramos en los buscadores? o ¿la mejor información es la que nos encontramos en las primeras páginas de los buscadores?

Como ya sabemos en Internet hay millones de páginas web con una gran cantidad de información. A nivel de usuario si nos encontramos con la necesidad de buscar información debemos tener en cuenta que esa búsqueda puede ser más eficiente si seguimos unas estrategias como puede ser seguir los siguientes pasos:

Buscar y evaluar la información.
Almacenar la información seleccionada.
Contrastar información en varias fuentes.
Establecer criterios específicos de búsqueda para ampliar o detallar información.

Para empezar a buscar información en Internet, es importante que elijamos un buen buscador. Podemos decir que un buscador tiene un motor de búsqueda propio cuya función es de ir de web en web recopilando información y almacenando estas direcciones en sus bases de datos.

También podemos encontrarnos con buscadores que usan las bases de datos de otros buscadores y los metabuscadores que utilizan como resultados los propios resultados de otros buscadores.

A la hora de buscar en un buscador podemos hacerlo de forma más específica utilizando una serie de herramientas o estrategias muy útiles como:

Utilizar comillas si queremos buscar una frase exacta (“-“).
Para buscar paginas que incluyan determinadas palabras y otras queramos obviarlas usamos el signo (-). Por ejemplo si queremos buscar animales –grandes, buscaremos las palabras animales y no grandes.
Para buscar varias palabras usaremos (OR). P.ej: Animales or serpientes.
Para forzar palabras para su búsqueda utilizaremos el signo (+). Hay palabras como artículos, preposiciones… que los buscadores tienden a no tenerlas en cuenta así, p. ej: (+La Razón) se buscara al completo.
Podemos usar comodines (*) para sustituir palabras. P.ej: La **compañía.
Hay que tener en cuenta que los buscadores suelen ofrecer la opción de una búsqueda avanzada, pudiendo añadir datos específicos de lo que buscamos como fechas, idioma, formato de archivo…que nos permitirán llegar a la información que deseamos de forma mas exacta.

Información obtenida de las fuentes:

Como ya hemos comentado a la hora de realizar una búsqueda, un factor decisivo a la hora de encontrar un tipo de información especifica de forma eficiente, es saber elegir un buen motor de búsqueda.

Algunos consejos sobre que motores de búsqueda poder utilizar en función de lo que se quiere encontrar pueden ser:

Para búsquedas sencillas o con pocas palabras clave podemos utilizar buscadores conocidos como:

Para obtener respuestas ane preguntas podemos utilizar:

Wolfram alpha. Un ejemplo podemos verlo en el siguiente enlace (http://www.wolframalpha.com/examples/?src=input)

Buscar con mas de un motor de búsqueda:

En búsquedas relacionadas con libros o bibliográficas:

Buscador de libros editados en España

Información obtenida de: http://papelesdeinteligencia.com/como-elegir-el-mejor-motor-de-busqueda/

Todos estos motores de búsqueda pueden resultar muy eficaces a la hora de buscar información especifica sin embargo lo que en muchas ocasiones no saben los usuarios con conocimiento básicos de informática es que en los resultados que te ofrecen los buscadores como Google solo suele aparecer la parte superficial de las páginas, es decir, en estas búsquedas no suele aparecer la información que aparece en estas paginas enlazadas a hipervínculos, lo que es conocido como "link crawling". Con lo cual debemos tener presente algo importante y es que en los resultados en esos buscadores no siempre aparece toda la información ya que mucha no se muestra al estar enlazada.

Hoy en día los robots de búsqueda que indexan paginas web siguen unos criterios de selección a la hora de buscar fijándose es aspectos como: el título de la página, numero de enlaces o hipervínculos y etiquetado de los contenidos.

Este último aspecto es importante resaltarlo. Para que una página web pueda estar bien visible es importante que cumpla una serie de criterios que los buscadores suelen tener en cuenta para buscar como puede ser:

Tener bien estructurada la pagina en etiquetas para que pueda ser bien buscada la información.
Hay que tener en cuenta que en ocasiones el lenguaje JavaScript puede ser mal leído por los buscadores y esta información puede no indexada

Los buscadores suelen tener unos criterios de búsqueda comunes sin embargo igual que tienen criterios comunes también tienen otros que son diferentes para cada uno con lo cual a la hora de crear una pagina web visible este es un aspecto a tener en cuenta.

Para que un buscador situé los resultados en un orden u otro depende de aspectos como:

Depende de la búsqueda en sí misma (forma de buscar, lenguaje empleado).
Funcionalidad que ofrece cada servicio.
Sencillez de uso.
Rapidez
Subjetividad.

En la actualidad no nos asombra decir que Google es el buscador mas utilizado en occidente (en oriente destacan otros como en China "Baidu" o en Rusia y Ucrania "Yandex").

Google, Yahoo, Bing cualquiera de esos buscadores, que son los mas utilizados podrían satisfacer cualquier búsqueda a nivel de usuario, sin embargo hay diversos aspectos en los que Google "destaca" sobre sus competidores como pueden ser:

"Muestra sugerencias a tiempo real en la casilla de autocompletar y crear un rango de fechas para encontrar documentos coincidentes".
"Permite búsquedas en blogs y foros".
Muestra una previsualización de coincidencias a medida que escribimos búsquedas específicas"
Analiza la proximidad de términos de búsqueda y prioriza según la cercanía de términos"

Fuente: http://www.pcactual.com/articulo/laboratorio/especiales/8851/encuentra_todo_que_buscas_internet.html

En conclusión, a la hora de realizar una búsqueda en Internet hay que tener en cuenta varios factores para poder obtener unos resultados específicos, seleccionando según lo que necesitemos unos criterios u otros de búsqueda así como un buscador especifico si fuese conveniente.

Es importante también ya no solo la búsqueda, sino que las páginas web que ofrecen la información deben de estar bien estructuradas y visibles para que puedan ser bien indexadas por los buscadores, y eso es algo que requiere de una formación específica para que pueda ser así.

Ante esto ¿podemos decir que un buscador es mejor que otro? El resultado de obtener información en Internet generalmente suele ser bastante objetivo según lo que queramos obtener como respuesta, según como busquemos y en que buscador… Es decir que para una persona puede ser más útil la búsqueda en un buscador y para otra persona puede ser otro.

En cuanto a que Google es definido por muchas personas como “el mejor”, pienso que puede ser una opinión subjetiva por el hecho de que, en primer lugar, la mayoría de usuarios a nivel básico que acceden a Internet y a su vez solo suelen hacerlo en Google, no suelen tener criterios contrastados en sus opiniones, en el sentido de que es posible que desde siempre hayan utilizado Google como buscador para todo tipo de búsquedas, por el hecho de ser el mas conocido y no han contrastado si esa información han podido obtenerla de manera más eficiente desde otros buscadores.

Sí que es verdad, que es sabido que Google presenta una serie de facilidades (antes mencionadas) que lo diferencian de otros buscadores y una vez acostumbrados a esas características es difícil adaptarse a otros buscadores, sin embargo, sigo apostando por que es cierto que Google presenta una gran servicio, pero seguramente muchos buscadores pueden presentar unos resultados para muchas personas en un alto grado de satisfacción.

Pero no solo queda aquí el criterio de mejor o peor según los resultados, sino que la respuesta de una persona puede variar si realmente conoce una serie de aspectos en cuanto a los resultados que solemos obtener.

Un aspecto en mi opinión importante que deberíamos conocer es que no siempre lo que aparece en los primeros lugares de los resultados siempre es lo bueno o verdadero. Lo que solemos encontrarnos en las primeras páginas de las búsquedas suelen ser resultado de acuerdos económicos de posicionamiento en el que empresas, como ideologías (normalmente relacionado con intereses políticos) y otros acuerdan con los buscadores para que los usuarios nos lo encontremos en las primeras posiciones, que hay que decir, que es en estas primeras posiciones donde la gran mayoría suele comprobar la información, con lo cual, visto de otra forma, obtenemos la información que quieren que obtengamos. Ante esto ¿podríamos considerar esto como un tipo de manipulación de la información?

Como en la mayoría de aspectos relacionados con obtener información debemos tener un criterio propio, en este caso para elegir el buscador y evaluar la información, ya que en gran parte la información que obtenemos suele tener rasgos de subjetividad y un propósito oculto, con lo cual el ser crítico y contrastar la información que obtenemos en la mayoría de casos puede ser beneficioso para nosotros.