El álgebra booleana de google
Los buscadores de internet han superado ampliamente las clásicas posibilidades de filtrado de preguntas basadas en el álgebra booleana (operadores Y, NO, O, en inglés AND, OR y NOT) Por ejemplo, google descarta por defecto el operador booleano OR (historia O roma), asumiendo que su base de datos es tan grande que, o intenta ser muy específico, o el resultado obtenido en una consulta de este tipo tendrá demasiado ruido, esto, saldrán demasiadas respuestas. Aun así, nos permite utilizarlo a voluntad en su búsqueda avanzada.
Así, google busca por defecto con el operador AND (historia Y roma), y es más, aplica por defecto un operador NEAR decreciente. NEAR busca páginas en las que aparezca "historia" y también "roma", con una o más palabras de separación entre ambos conceptos. El número de palabras se regula por 1,2,3, etc.
De este modo, si tecleamos en la cajetilla de búsqueda nuestras dos palabras ( historia - roma), intenta encontrar primero las palabras adyacentes y en el orden en que se han escrito. Después aumenta NEAR de NEAR 1 a NEAR 2,3, etc, independientemente del orden en que fueron escritas en la búsqueda ("query") aunque esta característica se combina con los otros parámetros de asignación del ránking de google.
Artículos relacionados:
- Secretos de posicionamiento en buscadores: Google PageRank
- Google en español mete la pata con... ¿las tildes?
La guerra de los buscadores: Overture ataca por los flancos
La última noticia es que Overture ha comprado alltheweb.com, potentísimo buscador de la compañía sueca FAST.
FAST, por cierto, ha tenido buenos resultados este año pasado. La publicidad en buscadores es un valor al alza.
Pero es que además hace "cuatro días" Overture compraba AltaVista.
Eso implica que va a convertirse en un serio aspirante al título de "base de datos" más potente de internet, si suma los índices de ambos montruos de la búsqueda. Además, alimenta de resultados a otros como MSN, o Yahoo.
Así que, si estábais pensando en usar los adwords de google y pujar por alguna palabra clave interesante, tal vez ahora os interese echarle un ojo a Overture y considerar colocar vuestro anuncio también allá. Aquí teneís una mini-guía de adwords para comprar palabras clave en Google, Overture y otros. Eso sí, hace poco subieron los precios, quizá lo vuelvan a hacer.
En cualquier caso, queda anotado en el diario de a bordo: "se observa tendencia a la concentración de competidores". Sigue la guerra, ¿quién mueve ficha ahora?
TdG en los medios: hoy es obligatorio sonreir
Gracias a Ricardo Fornas (eso es un colega, sí señor, así deberíamos ser todos los bitacoreros) nos enteramos de que nos han dedicado un post y todo en la prestigosa web de noticias sobre buscadores Pandia.org. ¡Leche, esto no me lo esperaba!
Por otro lado, nos encontramos con la agradable sorpresa de que estamos por segunda semana consecutiva en la lista de los top ten de bitácoras.net. Nota media: 8,37 (a día de hoy) Al menos a alguien le parece útil;-)
Y si miramos alexa.com, servicio de estadísticas por paneles basadas en la navegación de los usuarios que utilizan su barra de ayuda (similar a la de google) pues comprobamos que desde que pusimos en marcha el boletín (véase a la derecha) y aparecemos en bitácoras.net, pues hemos tenido un fuerte subidón. Para que todos saquemos conclusiones a efectos de márketing electrónico.
Con qué tonterías se pone uno contento, ¿no?
Entrevista a Larry Page: Google no iba a ser un buscador
Al loro: a traves de Aaron Schwartz, leemos una conversación con Larry Page, el papá de google. Nos cuenta de forma meridiana algo que puede ayudar a dar luz a todas las especulaciones surgidas tras la compra de Blogger por Google.
- La primera en la frente: En un principio page rank iba a servir para gestionar anotaciones en entornos colaborativos; como el descubrimiento de la penicilina, oyes.
"It wasn't that we intended to build a search engine. We built a ranking system to deal with annotations."
- La segunda es toda una declaración sin paliativos, y aclara muy bien a qué negocio se dedican actualmente: los anuncios.
"How we make money: ads. I would never have guessed that we had ads for steel buildings..."
- La tercera, mezcla la primera idea con la segunda: google vive de la "reliability", de la confianza que genera. Y los blogs son bastante "reliable", ergo sindicación.
"If the ads were what people were looking for, people would click on them. Ads. Syndication"
Sacad vuestras conclusiones.
P.D.: Y por último una curiosidad: se sorprenden del número de de búsquedas que hacen en la India. ¿Será el número de consultas en google un indicador cienciométrico de evaluación de progreso en el futuro? ¿lo es ya? Un nuevo indicador del estado de la ciencia, o si miras la pasta, de un posible país en el que invertir, hummm...
" World Graph of where the searches are coming from... India pretty amazing... Lots more searches coming from India than electric lights at night..."
Artículos relacionados:
- ¡¡¡Google compra Blogger!!! (PARTE I)
- ¡¡¡Google compra Blogger!!! (PARTE II): La guerra del RSS
Google ya no indexa etiquetas ALT en imágenes
El rumor se está extendiendo, y hay quien dice haberlo comprobado ya. Quizá el último google-dance nos confirme la noticia: google ya no tiene en cuenta las etiquetas ALT (con texto alternativo para las imágenes) a efectos de page rank, de cálculo del ránking de respuestas a una búsqueda.
De confirmarse, es una mala noticia por varios aspectos:
- Pobrecitos los SEO y webmasters que estaban optimizando webs con muchas imágenes. Menuda faena. Además, ¿cómo demonios sabrá en esos casos qué imágenes tienen más que ver con lo que el usuario busca? El lugar natural de donde sacar el texto con el que trabaja el algoritmo de google era esta etiqueta. ¿? Por favor, si alguien puede confirmarnos se lo agradeceremos.
- El ránking de google provoca que más y más webmasters perviertan y abusen de técnicas pensadas para cosas más útiles que ser los primeros por motivos comerciales, como ya pasó con los metadatos. La etiqueta ALT sirve para, entre otras cosas, que las personas discapacitadas visualmente obtengan alguna información útil allá donde hay una imagen. Si google ya no las indexa, ¿Cuántos creadores de webs se preocuparán por usar bien esta etiqueta?
- Por otro lado, otro rumor confirmaría lo que ya comentamos: que se genera una dinámica de acción-reacción peligrosa entre el mundo del SEM o SEO (optimización y posicionamiento en buscadores) y los motores de búsqueda. Según parece, el google bombing ya no tendrá tanto peso en el ránking de google, de modo que de ser así (también está por confirmar) los webmasters buscarán otra forma de trampear con el algoritmo, abusar de una buena idea, y provocar que google cambie de técnica. Así hasta que... ¿rompamos la baraja?
CONCLUSION: si optimizas, no te lo juegues todo a una carta.
Vigilancia tecnológica y unos jamones (de pata negra)
La inteligencia competitiva es uno de esos trabajos que todos debemos hacer en nuestras empresas y para los que raramente tenemos tiempo. Depende de la complejidad del caso, se puede llegar a subcontratar o desarrollar mediante outsourcing gracias a empresas como la mía, SERIKAT, jejeje (jefe, quiero mi comisión). Una las actividades de la inteligencia competitiva es conocer cómo nos ve la opinión pública.
Nosotros hemos querido barrer la casa y ver qué se decía por ahí de nosotros, algo sencillo. Pasadas las vacaciones de Navidad, tras enviar cientos de jamones (juas juas) he aquí el resultado, vía googlert:
- OVERBOOKING
Weblog de Melo "el hombre-orquesta", porque lo mismo habla de navajas suizas, de diseño, como de google: "Leo en el blog de unos amigos..." ;-)
- VELOCIDAD DE ESCAPE
"Especialmente llamativa la de Trucos de Google.
El mapa de conexiones generado desde una URl me ha dejado boquiabierto y con los teclados caidos."
- Microsiervos.org
"...trucos, consejos y formas de uso prácticas del buscador, aunque en este sentido es difícil superar el weblog Trucos de Google..."
- Denken Über
"es medio extraño lo de los META, pero es que hubo un momento que ya se abusaba de ellos.. entonces el logaritmo los deja de lado. Supongo que "Trucos de Google" algo debe saber del tema"
- Lunes otra vez
"Para perfeccionar las búsqueda en el mejor buscador"
- Ramón Buenaventura
"Viene a ser un manual de instrucciones en profundidad, un poquito revuelto, pero muy interesante" (totalmente de acuerdo, en casa de herrero... )
- Bradomín
"una excelente bitácora justamente con eso, con todos los trucos de este buscador que puedas imaginar o desear."
Pos eso. No está mal, ¿no?
Humor booleano y usabilidad de OPACs
Hay días que uno necesita un respiro, ¿no? Pues aquí tenéis uno. Overdue es un blog muy inusual, pues en vez de contar las cosas con textos, utiliza tiras cómicas. Así, cada día sus autores, bibliotecarios además, satirizan la profesión y las "anécdotas" diarias. A veces son tronchantes.
En esta ocasión os muestro un chiste referente a la "inusabilidad" de casi todos los OPACs . Para los que no lo sabéis, un OPAC ( Online Public Access Catalog) es el sistema de búsqueda de un Sistema de Gestión de Bibliotecas, como un buscador vaya. Hablamos más sobre usabilidad en OPAC, pero en serio, en otro post.
Mientras tanto... ¿no os ha pasado esto alguna vez?:
¿Cada cuánto indexa google mi web?
Cómo muchos lo preguntáis, la respuesta sería "depende". Depende de lo que actualices tu web. Más o menos, la ley sería: "cuanto más actualizas, más frecuentemente viene google a indexarte"(aunque da sorpresas, en uno y en otro sentido). Un pequeño grupo de privilegiados, periódicos y servicios de noticias de reconocido prestigio, son indexados "a dedo", y de ahí sale news.google.com.
El resto de mortales parece que nos regimos por este gráfico de googlevillage, a saber:
Como vemos, los blogs son más frecuentemente indexados (dos, tres días) que las páginas estáticas (30, 65 días o incluso nunca)
Nota: Esta constación no tiene por qué afectar al ránking, ojo, no tiene por qué tener que ver frecuencia de indexación con posicionamiento.
El modelo de negocio de Froogle
Este artículo va de estrategia empresarial y nueva economía. Vimos ya que Google Unclesam era una idea muy original: una búsqueda preconfigurada mediante un filtro ya hecho (busca sólo en dominios .gov o .mil). Le ponemos fácil al usuario conseguir algo que le resulta difícil, esto es, usar la búsqueda avanzada.
Esta misma estrategia, tan simple en principio, es lo mismito que hacen con Froogle. El último invento de google, un buscador de productos, quizá sea en un futuro ¿cercano? su "tienda online". En vez de poner una pestaña en la búsqueda común (aunque quizá también lo hagan) como tienen ahora con las noticias o las imágenes, se montan otro portalillo para que la gente vaya allí a hacer lo que quieren hacer: buscar y comprar productos, no información.
El nuevo nombre va de boca en boca, en un momento “to quisqui” sabe que existe Froogle, lo que hace Froogle, y que lo que hace (buscar productos), lo hace tan bien como google hace lo suyo (buscar información). No gastan un duro en publicidad, y como dice su lista de " Las 10 cosas que google sabe que son verdad" ( 10 things Google has found to be true) pues "lo mejor es hacer una cosa, pero realmente bien hecha".
Así las cosas, Google hará dinero por su lado, y Froogle por el suyo. La gente no tendrá que teclear ninguna opción complicada, aquí se viene a comprar y sólo a comprar. Además, encuentro el producto que busco, y lo compro, y lo compro aquí, y como se explica en Ainda.info, el coste del cambio hará que venga siempre aquí a comprar porque me he acostumbrado y sé que casi siempre encuentro lo que necesito.
PD: Froogle tiene también su búsqueda avanzada: podemos indicar incluso el precio mínimo o máximo que estamos dispuestos a pagar.
Para quitarse el sombrero.
Artículos relacionados:
- Y Google cogió su fusil... para irse a la guerra
- El álgebra booleana en google
Ya está en venta Google Hacks
Nuestra indomable Tara Calishain, documentalista y editora de la revista electrónica especializada en buscadores y gestión de información Researchbuzz, por fin ha sacado a la venta, a partir de este 1 de Febrero, su libro Google Hacks.
Google Hacks trae unos 100 trucos distintos, desde cómo utilizar la búsqueda avanzada hasta cómo modificar la programación de las API de google para desarrollar aplicaciones que se adapten a nuestros entornos de trabajo, basadas en el algoritmo de google.
En cuanto pueda me lo compro, ¡ah! ¡y no cobro comisión!
Diario de programación de un buscador
El único colega documentalista bloguero que conozco aparte de mi compi Iñigo, el nunca suficientemente bien ponderado Maelmori, está iniciando un proyecto titánico (a mi modo de ver) que merece la pena visitar. Está desarrollando un buscador en mysql con capacidad para establecer un ránking en las respuestas que probablemente basará en el modelo de espacio vectorial.
Ya está pensando en acoplarlo a un tesauro, y otro colega ya le está dando ideas para mejorar el sistema, mediante Procesamiento del Lenguaje Natural, stemming, retroalimentación, etc. Si empieza a pensar en más y más cosas no lo acabará nunca, jeje, nos pasa siempre ¿no?.
Pero si alguno se anima a darle ideas pásense por allá, merece la pena y se aprende un montón. Yo le voy a seguir la pista, y ya le he puesto mi granito de arena: un clasificador multijerárquico automático para Sistemas de Gestión de Contenidos o al menos de publicación tipo movable type, mezclado con un tesauro. ¿A que parece un título de tesis infumable? ¡Mola! ;-)
El álgebra booleana en google
Los buscadores de internet han superado ampliamente las clásicas posibilidades de filtrado de preguntas basadas en álgebra booleana. Por ejemplo, google descarta por defecto el operador booleano OR, asumiendo que su base de datos es tan grande que, o intenta ser muy específico, o el resultado obtenido en una consulta de este tipo tendrá demasiado ruido. Aun así, nos permite utilizarlo a voluntad en su búsqueda avanzada (opción "con alguna de las palabras")
Por tanto, google busca por defecto con el operador AND, y es más, aplica por defecto un operador de adyacencia NEAR decreciente. ¿Qué quiere decir eso? Si tecleamos en la cajetilla de búsqueda dos palabras, intenta encontrar primero las palabras adyacentes (juntas, o NEAR 0 donde 0 es el número de palabras entre una y otra palabra) y en el orden en que se han escrito.
Después aumenta NEAR a NEAR 1, 2,3, etc, primero si puede ser en el orden de escritura, y si no, independientemente del orden en que fueron escritas en la búsqueda o query. De todos modos, ya hemos visto que hay otras consideraciones que afectan al ránking de google, de modo que el uso de and y near no son determinantes absolutos del ránking, pero sí decisivos.
Conclusión: No es lo mismo buscar (y ser encontrado) por gestion contenidos, que por contenidos gestion.
|