::Trucos de google - buscadores y gestion documental

google en español, posicionamiento en buscadores, findability y gestión de contenidos

:: 10/25/2003 | enlace del articulo |

La personalización en los buscadores

Otra bomba informativa más ha caído, supongo que lo habéis leído ya: Google quiere salir a bolsa. Como otros saben más del tema bursátil, ahí queda la cosa. Yo me meteré con otra historia, la reciente compra de la compañía Kaltix, que ha disparado nuevos rumores. ¿Cómo se aplicarán las técnicas de aumento de la rapidez de cálculo de PageRank que parece ofrecer Kaltix? Aparece un término no nuevo pero sí muy interesante: la personalización.

La personalización debe ser a la recuperación de información algo así como la piedra filosofal a los alquimistas. Conseguir un sistema de información que realmente se adapte a lo que tú sueles necesitar, entienda tu contexto de trabajo, y separe la paja del grano por y para tí solito es una idea que tiene tiempo pero que topa con los mismos problemas una y otra vez. Algunas experiencias:
  • Diversos gestores de contenido y conocimiento disponen ya de ciertas capacidades de personalización; por poner un ejemplo clásico, Autonomy. Puedes oir de todo sobre ellos, desde fantástico hasta que es como matar moscas a cañonazos (y carísimos).

  • Muchas veces lo que se da en realidad es "customización", que es sutilmente distinto (ponerme el fondo verde, guardar el idioma en que quiero que me presenten la información de la compañía...) Un ejemplo, las posibilidades de configuración de alltheweb.

  • En diversos portales se dan de una manera u otra elementos para personalizar la experiencia del usuario, como hace Amazon para conocer tus gustos y necesidades habituales y ofrecernos productos relacionados, etc.

  • Investigaciones punteras con diversos algoritmos, trabajan con técnicas de feedback (retroalimentación) para reconocer patrones de comportamiento en el usuario y generar una base de conocimiento que permita al software adelantarse a las futuras necesidades del usuario.

  • La misma web semántica propugna la aparición de agentes inteligentes que trabajen en ese aspecto. Otros agentes ya existentes como Copernic se dedican a eso, por trabajar desde tu PC, aunque llamarlo personalización es quizá más una "marca publicitaria" que otra cosa, como llamarlos inteligentes.


Los problemas de la personalización en grandes sistemas de recuperación de información siguen siendo los mismos desde que se planteó el asunto, entre otros:
  • La capacidad de cálculo para atender las necesidades de docenas de millones de personas, de cientos de millones de búsquedas tiene que ser forzosamente brutal.

    Si para un simple portal de tamaño medio-grande (cientos de miles de usuarios registrados diarios) necesitamos un esfuerzo de inversión para poner un servidor dedicado a un buscador interno tipo Verity, que gasta muchos recursos, no digamos para un buscador mundial. Por eso los chicos de Google tiran de hardware diverso y redundante, y por eso les puede interesar la tecnología de mejora de cálculo de Kaltix.

    Ojo, alguno se puede estar partiendo de risa con esto, porque estará haciendo buenos negocios on-line usando un PC de casa como servidor y corre que te las pelas, lo sé que os veo cómo me estáis leyendo ahora. Pero eso es otra historia ;-)

  • ¿Quiere realmente el usuario medio tanta personalización? ¿Quiere tantas opciones? No olvidemos que estos grandes sistemas, al contrario de un ECM (Enterprise Content Management, o Gestor de Contenidos) deben enfocarse a funcionar muy "democráticamente", para todos. Esto es, lo que se invente, debe valer para una gran parte de los usuarios, de lo contrario puede no valer la inversión, y además molestarles.

    Puede que a mí, como usuario no tan novel o más especializado, me interese hacer cosas más complejas o hacérmelo yo conmigomismo (como el linuxero que echa de menos sus comandos), pero el usuario más común puede estar encantado con que el "bicho" piense por mí. Yo no puedo decir ni que sí ni que no a eso. Para eso están los estudios de usuarios y las versiones beta.
    Pero si empiezo a leer por ahí que Google está interesado en la personalización, y hacen estudios de usabilidad hasta para asegurarse de diferenciar resultados publicitarios de los naturales...

Curiosamente y echando la vista atrás, Greg Notess escribió en el año 2000 un artículo en el que se preguntaba por qué Excite estaba "googlelizando" su apariencia, quitando opciones como búsquedas relacionadas, etc, y Google estaba incorporando nuevas opciones, como noticias, imágenes, etc. y cómo influiría en el futuro de ambos motores de búsqueda. A la vista está el resultado, ¿no?

Por otro lado, en ciertos foros se preguntan si quedará algún futuro para los SEO´s y la optimización de webs para buscadores, para los profesionales que intentan que las webs aparezcan entre los primeros resultados de las búsquedas naturales de los buscadores.

Si hay tanta personalización y las consultas (y respuestas) son tan tan específicas, el mercado al que me enfoco sería tan pequeño que ¿merecería la pena el esfuerzo? ¿Todo quedara en manos de la publicidad de pago, tipo Adwords o Altavista geo-tracking?

No sabemos si esto llegará en un futuro cercano, o no llegará nunca. Pero todos parece que lo están buscando. En cualquier caso, debe significar que a los usuarios nos van a dar mejor servicio. Porque, al fin y al cabo, los buscadores viven de los usuarios finales.


:: 10/14/2003 | enlace del articulo |

Metabúsquedas, Google y comportamiento de los usuarios

Recomiendo encarecidamente un artículo del Library Journal sobre la influencia de Google en las bibliotecas que me parece de imprescindible lectura a todos los que os interesásteis por el artículo anterior sobre usabilidad de OPAC's. En especial para el "Tintinero" de Jesús ;-) que debatió con mucho ahínco el asunto.

Aviso: es en inglés.

Lo único que echo en falta en el artículo es alguna referencia a trabajar con estándares de metadatos (RDF, Dublin Core, XFML, RSS 0.91, 1.0, 2.0...). Sin duda estos estándares desempeñarán un papel fundamental en la semantización de la Web.

Aquí sí que quiero hacer una observación sobre el artículo anterior de Jorge sobre la mal llamada ontología de Google, ya que discrepo en que sea Google quien establezca a priori el cojoléxico divino de la muerte: antes bien, es posible que sean los más listos en usar los diferentes formatos de XML, y sus tablas de equivalencia, parseándolos con sus spiders. Por eso, cuando la compra de Blogger por Google, escribí que uno de los atractivos para Google era el de hacerse con contenido muy potente en RDF y RSS: es decir, descrito con metadatos y sindicable. (offtopic: ergo, si a Google le gustan estos formatos... a qué esperáis SEO's del mundo? Probad a ver qué pasa si tu website tiene salida en RSS o RDF...

Por cierto que ontología no me parece el término correcto es porque una ontología, por muy de moda que pusiera el W3C este término, no es éso: yo me quedo con tesauro, o a lo sumo lista de encabezamientos de materia).
Por Iñigo Arbildi.


:: 10/09/2003 | enlace del articulo |

Blogs semánticos, tesauros y "La" Ontología de Google

Dentro del marco de la Web Semántica, se están desarrollando diversas iniciativas encaminadas a aglutinar técnicas, tecnologías y estándares para mejorar la calidad y capacidad de la recuperación de información, gestionar anotaciones en entornos interconectados como la gestión de proyectos, intranets y gestión documental y del conocimiento, etc.

Entre ellas me ha sorprendido no por la novedad de la idea, sino por la mezcla de tecnologías, los blogs semánticos, en los que parecen unirse al blog los tesauros.

El Thesaurus Interchange Format Schema (Esquema de Formato de Intercambio de Tesauros) es un proyecto muy interesante propiciado por Alistair Miles y Brian Matthews. Así, se podría unir a la rapidez de publicación de los blogs, el control del vocabulario mediante el correcto uso e intercambio de tesauros multilingües y la interconexión homogénea de la información.

Y diremos: ¿y por qué HP se mete en blogs semánticos? ¿a quién le interesa un tesauro hoy día con tanto buscador a texto libre? Pues no sólo a HP.

Resulta que, vaya vaya, por ejemplo, si tomamos un manual de Microsoft Sharepoint, software para el desarrollo de intranets, parece que buena parte del mismo está dedicado a enseñar cómo usar y explotar un tesauro interno. Porque, como suele pasar, el software de una intranet no vale nada si no se encuentra nada en ella, cosa harto frecuente.

Si usáramos el Thesaurus Interchange Format Schema, podríamos intercambiar categorías y reenvíos entre términos comunes entre clientes y proveedores, o entre distintos departamentos, incluso entre sucursales de países e idiomas distintos, mejorando la eficacia del sistema a medio-largo plazo.

Fue algo que intentamos hacer en el buscador comercial de Temalia tiempo ha, creando reenvíos entre títulos de películas de diferentes variantes idomáticas por países para localizar películas con diferente título, dependiendo del país. Así, "The sound of music" en inglés, era "Sonrisas y lágrimas" en España, y "la novicia rebelde" en ciertos países de Sudamérica. Una buena cookie con la identificación y procedencia del usuario que retorna y ¿problema resuelto?

Al mismo Google le interesa el control del vocabulario. Por eso ha comprado Applied Semantics y su "ontología" (diccionario semántico o como lo llamemos) para aumentar y controlar mejor los anuncios de texto (adwords) y las relaciones que haga mediante adsense.

Acaba de anunciar la mejora de la función "broad matching" para la gestión de adwords. Es decir, que si uno quiere anunciarse para la palabra "jersey", también lo hará para... ¿para qué otras palabras? ¿suéter? ¿chaleco? (creo que se le conoce así en Huelva, si no, me decís) Esa es la cuestión. Si Google es el estándar, ¿el contenido de las webs deberá contener las palabras y las variantes del estándar?

Recordemos aquél día que os hablaba del curioso artículo premonitorio "August 2009: How Google beat Amazon and Ebay to the Semantic Web". Si todos queremos estar en Google, ¿no querremos también aparecer en las palabras que Google marque como relacionadas? Por mucho que ladremos, ¿no claudicaremos en aras del negocio? Obviamente sería muy difícil pensar en una homogeneización del vocabulario a nivel mundial propiciada por Google, pero yo que sé, las ciencias avanzan que es una barbaridad, quién sabe...

Podríamos incluso imaginar una situación en cierto modo idílica y a la par inquietante, me diréis: que la ontología o el control de vocabulario que desarrolle Google sea "La" Ontología, que todos al final nos acabemos inclinando por ella y el lenguaje sea homogéneo por fin. El sueño de un bibliotecario, y una pesadilla estilo "Bill Gates", ¿o no?

Quizá un poquito exagerado. Quizá...