Trucos de google - buscadores y gestion documental

::Trucos de google - buscadores y gestion documental

google en español, posicionamiento en buscadores, findability y gestión de contenidos

Bájate el estudio "Usabilidad ElPais.es"

Contacto
Comentarios, aportaciones e improperios, a
Jorge Serrano
Inigo Arbildi

Archivo de trucos

:: 11/29/2002 Autor: Jorge Serrano-Cobos | enlace del articulo |

Esta noche empezó el google dance

El 28 comenzó google a reindexar su base de datos, lo que se llama google dance; por tanto, si quieremos asegurarnos de que nos pille nuestras últimas actualizaciones de contenido, es bueno hacerlo ahora, poned nuevos contenidos en estas fechas.

En realidad google tiene dos googlebots, uno el que genera este índice de palabras de cada web, y otro que repasa la web con más frecuencia, y que se fija más en las webs que actualizan sus contenidos más frecuentemente (como ésta). Las páginas más estáticas son reindexadas cada más tiempo. Esto no tiene por qué necesariamente afectar a tu ránking, a no ser que tu contenido se quede obsoleto y la cuenta de links de otros haya cambiado (cosa bastante probable, por otro lado), pero vaya, es una recomendación, porque así nos aseguramos de que cuando alguien busque algo relativo a nuestro contenido, encuentre lo último que tenemos.

Consejos desde google para SEO´s

Los mismos colegas de google nos dan unas directrices sobre qué es ético y qué no lo es para ellos cuando hablamos de conseguir que nuestra web salga lo antes posible en las respuestas a una consulta dada. Cuenta lo obvio, aunque empiezo a dudar de que seguir las reglas sea el mejor camino para estar bien posicionado en google. Yo lo hago, pero vaya, es triste. Lamentablemente, he visto varios casos flagrantes de técnicas poco éticas, y lo malo es que su posición no cambia a lo largo del tiempo. No tengo claro si es un efecto del cambio de algoritmo que vimos hace poco, o ya venía de largo, pero aún así, "algo huele a podrido en... California".

Actualizado: Google en español modifica ránkings con tildes

Gracias a Alvaro Roldán que me confirma que el ránking puede alterarse dependiendo de si una palabra está escrita con acento o no. Eso ocurre al menos con el google en español, no sé en más idiomas pero parece que sí. Se puede comprobar en alguna palabra con menos cuenta de resultados, como "ósculo" u "osculo" (bella palabra que me recuerda al "ósculo de Ariadna" de Les Luthiers, jeje, "besáme muñequita, chananááá")

Aquí puede haber varios factores: que la palabra se usa en más de un idioma, que la cuenta de links en los ejemplos anteriores supone un % muy elevado en el cálculo del ránking y su peso hace que no le afecte la cuestión del acento, u otros parámetros, porque el PageRank no sólo se alimenta de factores dinámicos en torno a links.

Podríamos concluir que al parecer, lo más prudente es optimizar para palabras sin acento (muchos más usuarios buscan ya sin tilde que con ella), pero utilizando en el texto libre las palabras con acento, porque por mucho que te encuentren, si luego leen un texto que atente contra la bella prosa de Cervantes, me imagino que su percepción de nuestro página será más bien lastimosa.

Lo que no podemos hacer con el google en español:

- Tener la pestaña de noticias por defecto.
- Utilizar el filtro familiar Safe Search
- Usar el Safe Search también en imágenes
- Tener acceso directo a las búsquedas especializadas (mirar abajo del todo, sección Topic-especific search

:: 11/28/2002 Autor: Jorge Serrano-Cobos | enlace del articulo |

Google en español mete la pata con... ¿las tildes?

Gracias a Eduardo Manchón, que detectó tiempo ha el hecho de que google en español diferenciaba entre búsquedas escritas con acentos escritos (tildes) o sin ellas. En principio esto cambió, y ahora google, según su ayuda, dice no hacer distinción.

Si alguno utilizáis las adwords para promocionar vuestra web, esto os puede interesar, y cómo.

El caso es que una pequeña prueba parece que contradice esa afirmación.

Veamos: observamos, por ejemplo, que la diferencia de resultados al buscar maria o maría es de 60.000 respuestas.

Pero la cosa es más preocupante cuando están en juego las adwords, el sistema de publicidad de pago de google mediante subasta de posiciones por palabra clave en las ventanitas de la derecha de la pantalla de respuestas.

En este ejemplo, comprobamos que entre prestamos y préstamos no sólo hay una diferencia de 1000 respuestas (161.000 contra 160.000), sino que además también varía el número de adwords que hay a la derecha (7 contra 3). ¿Quiere decirse entonces que unos pagan por la palabra con tilde y otro por la palabra sin tilde? ¿Saben esto los anunciantes... ?

Antes (ahora ya no ) se podía comprobar la predicción de búsquedas para una y otra palabra, y se podía comprobar que los usuarios de google en español tendemos ya a escribir las búsquedas sin tildes, por lo que vemos más anuncios en "prestamos" que en "préstamos". Ya lo sabéis, si queréis pagar por una palabra.

Y lo más curioso -y misterioso- es que en principio, menos mal, parece no afectar al ránking, al menos en los primeros resultados. Habría que averiguar cuándo y cómo cambia la cosa, y lo más importante, ¿por qué?

Si alguien puede confirmar que no afecta al ránking, nos quedaríamos todos mucho más tranquilos. La pregunta está enviada a los representantes de google, si nos contestan algo ya os avisaremos...

Más información: aquí tenéis el foro en el cual salió la discusión promovida por Eduardo. Hmm, interesante, el nuestro no es el único idioma al que le pasa esto...

Una aplicación para vigilar a googlebot

Para todos aquellos que necesitáis saber cómo, cuándo, etc., indexa googlebot vuestra web, gracias a Fernando os brindamos esta aplicación tan interesante, googlestats.

Está escrita en php y analiza en forma de estadísticas lo que hace googlebot cuando os visita. Y de gratis, oyes.

Las 100 webs más citadas de la red

Un par de datos muy curiosos: ¿Cómo saber cuáles son las webs más citadas de la red según google? Poned "http" (sin comillas) en la caja de búsqueda y voilà!:

- Las 100 webs más citadas en inglés.
- Las 100 webs más citadas en castellano.

PD: sorry, lo he intentado en klingon ;-) pero no me deja.

Una calculadora de PageRank

Y ya que estamos con PageRank, otro día lo cuento con más calma, pero ahí os va una interesante herramienta para calcular el page rank (PR) o relevancia que otorga google a una web. Hala, a calcular.

Y si no puedes esperar, te lo explican con detalle en webworkshop.net.

:: 11/21/2002 Autor: Jorge Serrano-Cobos | enlace del articulo |

Nuevo Truquero, nuevos contenidos

Sois muchos los que colaboráis conmigo enviándome cosas interesantes que yo sólo nunca descubriría (sois como mi metabuscador personal, entre todos abarcamos más web) Mil gracias de corazón, por si no os lo digo suficiente. Los lectores se creerán que me lo saco todo yo, pero no es así, si no fuera por vosotros, no sería tan rico el contenido de Trucos...

Y así, Trucosdegoogle evoluciona poco a poco, aunque no tanto como yo quisiera, que no se puede uno dedicar en cuerpo y alma a esto (ya me gustaría) Por eso os presento a Iñigo Arbildi, documentalista de pro, amigo y compañero de algunas juergas "confesables" (es que si pongo lo de in- su chica nos mata, je) A partir de ahora colaborará conmigo aportando toda su experiencia en el mundillo de la gestión de información.

Iñigo ampliará contenidos para hablaros de temas tan interesantes como Sistemas de Gestión Documental y de Contenidos (EDM y CMS) findability (¿"encontrabilidad"?) XML, RDF (metadatos), Digitalización de documentos, Diseño de Sistemas de Información, e-business, y un largo etcétera; y siempre, siguiendo la línea de Trucosdegoogle, desde un punto de vista eminentemente práctico y útil. Eso esperamos.

No os perdáis las novedades que estamos preparando. Y si alguno más quiere colaborar, no dude en escribirme. ¡Hala Iñigo, te toca!

[11/20/2002 1:22:07 PM | Iñigo Arbildi]

¡Ya ha empezado La Saga del Encontrable!

¡Hola Truqueros! Hechas las presentaciones oportunas por parte de Jorge, aprovecho para darle las e-gracias y saludaros. Espero que nos divirtamos juntos, y para abrir boca, os cuento que comienzo con una serie de posts bajo el título de serie La Saga del Encontrable , en clara alusión a las colecciones de documentos con buena política de findability. En esta serie hablaremos de cómo aprovechar todos los conceptos de los que hablamos en el Trucosdegoogle para ampliarlos y hacer cosas flipantes con herramientas que nunca sospecharías que son tan potentes, y que seguro que tienes en tu escritorio, hablaremos de la industria de EDM (Electronic Data Management), CMS (Content Management System), de cosas de actualidad, de conceptos básicos a la vez que desconocidos, ... Veremos temas como:

1. Algunos conceptos fundamentales de los que nadie habla (tal vez porque hay tanto gurú en los cielos que no han visto muchas cosas de cerca).
2. Crearnos un sistema de búsqueda sobre nuestros documentos (Un truco para tener tu propio Sistema de Gestión Documental).
3. Seguridad y control de versiones (Así podrás controlar los cambios en documentos durante su ciclo de creación y flujo de vida).
4. Verdades y mentiras sobre los Sistemas de Gestión de Contenidos (Ya veréis, ya). 5. Regalitos, como el test de usuarios que hemos hecho sobre la prueba de siete días gratis del nuevo y de pago EL PAIS.es. En unos días, en vuestro trucosdegoogle. Adelanto sobre los resultados: Para alucinar.

:: 11/18/2002 Autor: Jorge Serrano-Cobos | enlace del articulo |

Alltheweb, la madre de todas las búsquedas avanzadas

La compañía sueca FAST ha hablado hace poquito con los de google y les ha puesto precio a su motor de búsqueda alltheweb: 10.000 millones de dólares, ¡toma ya! (recordad al leer la noticia que los americanos piensan en billones, y no en miles de millones)

Aparte de por muchas razones, para mí el valor de alltheweb está en su búsqueda avanzada, completísima y muy desconocida. Para descubrirla, hay que ir a cada una de las opciones que tenemos en el menú de arriba (páginas web, videos, mp3, news, etc) y en cada una pinchar en "advanced search". Quizá algo escondidillo para el usuario poco acostumbrado a hurgar en los buscadores, una pena. Ahí os paso algunas de las cosas que podemos hacer:

Búsqueda avanzada de Páginas web:

- Buscar páginas web con Macromedia Flash, Java applets, JavaScript, RealVideo & RealAudio, VBScript
- Filtros de dominio (también por regiones, como Asia o Europa)
- Filtro por IP: si conozco el IP de un servidor, puedo buscar dentro de todas las webs alojadas en ese servidor.
- Filtros por fechas de actualización, tamaño del documento, profundidad de la búsqueda denrto del directorio (que sólo busque en la 'home' o entre los subdirectorios, como las capas de una cebolla)

Búsqueda avanzada de Noticias:

- tipos de noticias (económicas, deportes...)
- Filtro por dominio
- Ordenación de resultados por relevancia o fecha

Búsqueda avanzada de Imágenes:

- Formato (jpeg, gif)
- Tipo de imagen: en color, escala de grises...
- Tipo de fondo: transparente o no transparente, ¡ ideal para buscar gifs para nuestra web!

Búsqueda avanzada de Vídeos:

- formatos: avi, mpeg, real, quicktime...
- buscar streaming (ver en tiempo real) o para descargar.

Búsqueda avanzada de FTP:

- Filtros por dominio, tamaño, fecha, incluso nos permite aplicar truncamientos (' wildcards' ) o definir si buscamos palabras con mayúsculas o no (' case sensitive' )

¡Ah! ¡y no hemos hablado de las preferencias!

Podemos preparar alltheweb para que recuerde (mediante cookies) que en lo sucesivo haga cosas como:

- autocompletar lo que estamos tecleando
- filtro familiar (antes funcionaba, ahora no)
- consejos en forma de otras búsquedas que contenían el/los mismos conceptos expresados por nosotros en la búsqueda
- ver más resultados del misma dominio
- resaltar las palabras buscadas (como google o excalibur, por poner dos ejemplos)
- trucos para buscar mejor con alltheweb
- resultados de otros formatos (si buscamos webs, igual quiero que me aporten a la vez algún ejemplo de vídeos o mp3 que respondan a los mismos parámetros)

Como vemos, sólo es cuestión de perder un poco de tiempo. O mucho...

:: 11/13/2002 Autor: Jorge Serrano-Cobos | enlace del articulo |

Weblogs bibliotecarios

No lo suelo hacer, perdonad que hoy no hable de nada "profesional", pero esto tengo que contarlo. Es curioso, pero no conozco ningún weblog en castellano sobre el mundillo de las bibliotecas o hecho por bibliotecarios (o titulados en documentación) salvo a maelmori, que yo sepa. Buscando buscando me encontré con una sorpresa.

Por lo que se ve y sin embargo, en el mundo anglosajón hay muchísimos weblogs sobre el tema, pero a patadas. Un vistazo a algunos de ellos en libraristic links nos puede enseñar mucho de lo que están haciendo allende los mares en cuanto a gestión de información, bibliotecas, etc, como por ejemplo librarian.net o librariana.

Pero también los hay divertidísimos, pero para partirse. Algunos ejemplos cachondos, the modified librarian, leatherlibrarian, o lipsticklibrarian . También tenemos las espatarrantes bellydancing librarian (no me digáis que los títulos no son ya inquietantes) y The stripping librarian (demasiado, estoy llorando, aaay que me da algo)

Pero el primer premio se lo damos, ya lo siento amigas mías bibliotecarias, me vais a matar, pero de repente me encontré este anuncio, flipante: librarian vibrator ad. Sí, sí, leed, miradlo y leedlo hasta el final, en inglés claro, para ver y no creer, las carcajadas que nos hemos echado.

Más des-información en: The laughing librarian

PD: Estos americanos están locos...

Autor: Jorge Serrano-Cobos | enlace del articulo |

Google ya tiene su propia categoría

Y es que empezamos a ser tantos los que hablamos de google que ya los de yahoo le han dado una categoría temática propia.

Gracias a Fernando y a Alvaro me entero de la existencia de google.dirson.com, un weblog aún más especializado que el mío, que da noticias, curiosidades, etc, sobre google. Enhorabuena porque, como usa php, puede clasificar cosas y tal (el blogger se queda escasito) y como no tengo vida pa más, no puedo organizar los artículos de una forma un poco más clara para vosotros. Pero que sepáis que lo sé y que lo intentaré subsanar algún siglo de éstos.

Y de allí he llegado (gracias dirson) a otra web que realmente puede servir de nexo de unión para muchas webs que tratan lo mismo desde mil puntos de vista. Es googlemania , y tenéis allá una colección bastante exhaustiva de enlaces realmente curiosos, útiles, o simplemente divertidos.

En concreto, os comento dos aplicaciones interesantes: una es, si recordais, el uso del comando daterange en fresh machine, que nos permite saber qué webs hablan sobre un determinado tema, pero de ellas, sólo aquellas que hayan sido actualizadas (indexadas) en un determinado rango de tiempo por googlebot.

Otro servicio creado al "amor de google" es google via e-mail . Me parece muy interesante para servicios tipo DSI, que quieran dar a los usuarios una información añadida cada X tiempo sobre aquello que quieren basándose en búsquedas en google, por ejemplo noticias sobre "loquesea" cada cierto tiempo. En lugar de tener que buscarlo, recibo las respuestas vía e-mail, aunque es posible preparar el servicio para PDA, etc.

Muy interesante, sí.

:: 11/11/2002 Autor: Jorge Serrano-Cobos | enlace del articulo |

Altavista se lava la cara

Parece que Altavista está haciendo un gran esfuerzo por cambiar de imagen, después de la drástica caída en picado de su popularidad durante estos últimos años.

Lo mejor, te reconoce de inmediato como hispanohablante y cambia su interfaz para adaptarse a ello. Además, se muestra más como lo que tiene que ser, un buscador, y no como un portal con de todo un poco.

Las opciones de búsquedas por formato son más visibles (mp3, imagen, video) La búsqueda avanzada la han dividido en dos opciones (¿por qué?) llamadas "más precisión" y "búsqueda avanzada". El look general lo han "googlelizado", con lo cual se demuestra de nuevo que la apariencia, la usabilidad, son tan importantes como el algoritmo de relevancia (o lo bien o mal que nos da las respuestas)

Tiene más opciones de búsquedas avanzadas en cada formato (mp3, video, etc), algo muy interesante y muy poco conocido. Para ello hay que pinchar en la pestaña de cada formato, por ejemplo en la pestaña de imagen y una vez allí, pinchar en búsqueda avanzada.

No tengo muy claro si funciona el filtro familiar, la ayuda es más contextual (cuando estás en búsqueda de imagen te informa sobre cómo buscar mejor imágenes) pero sigue teniendo banners, una pena porque la verdad es que en general tiene mejor aspecto.

Pues hala, ya me diréis si los resultados también son mejores. ¡A buscaaarr!

Más información en: Altavista - Looking good

:: 11/07/2002 Autor: Jorge Serrano-Cobos | enlace del articulo |

Desayuno con buscadores

Como siempre sin percibir comisiones, jeje, os invito de gratis a un "desayuno con buscadores", un debate muy interesante sobre el mundillo de los "buscadores inteligentes" y su aplicación a la gestión documental, de contenidos e intranets, mediante ingeniería lingüística, algo que entre los grandes sólo está usando google. Lamentablemente no podré ir (es en Madrid y yo trabajo ahora en Bilbao) pero os lo recomiendo. La jornada se titula "La aguja en el pajar: contra la avalancha de información, buscadores inteligentes" y la organiza Bitext.com.

Además, tienen una tecnología muy interesante, y merece la pena conocer lo que están haciendo, porque por cierto, que yo sepa son los primeros en haber exportado tecnología española en este campo a los USA, ahí es nada.

En la presentación se trataran los siguientes asuntos:

-Nuevas tecnologías de acceso a la información. El problema del ruido (la información no relevante) y el problema de la cobertura (los documentos no encontrados): la aguja en el pajar.

-Indexación basada en contenido: extracción de índices más allá del nivel de la palabra, extracción de términos, expresiones clave, etc.

-Presentación y demostración: DataLexica y dtSearch Text Retrieval Engine, una herramienta que dota de inteligencia a los buscadores.

-Aplicaciones: inteligencia competitiva, reputación empresarial, vigilancia tecnológica, toma de decisiones informadas.

La presentación tendrá lugar el próximo día 11 de diciembre, a las 11 de la mañana, en la sede social de Bitext: calle General Oraá, número 3, bajo izquierda, Madrid.

Se servirá un desayuno para amenizar el debate. Las presentaciones estarán a cargo de Antonio Valderrábanos, Director General, y Josu Gómez, Director Técnico.

¡Ah! confirmad asistencia en la dirección bizdev@bitext.com o en el 91.561.58.31. Y decid que vais de mi parte, por favor.

¡Que infoaproveche!

:: 11/05/2002 Autor: Jorge Serrano-Cobos | enlace del articulo |

Entrevista a Isidro Aguillo, especialista en cybermetría

Tras un interesante cruce de aportaciones en la lista de correo iwetel, he tenido el placer de hacer una mini-entrevista virtual a Isidro Aguillo, investigador del CINDOC-CSIC, y editor de Cybermetrics, revista científica electrónica especializada en el estudio de las estadísticas en internet y la sitemetría, muy útil para la investigación en sociología y el márketing electrónico, por ejemplo.

De la conversación con este auténtico científico de los buscadores y sus intervenciones en iwetel, y con su permiso, extraigo algunas conclusiones sobre la situación actual de google y otros (mis comentarios/aclaraciones en paréntesis):

- Contrariamente a lo que exponen en sus respectivas páginas iniciales, se recuperan consistentemente más resultados de FAST (alltheweb.com) que de Google, aunque éste cubra un mayor número de tipos de ficheros.

- Las bases de datos multimedia (imágenes, música, vídeos) de los distintos buscadores son ya enormes, pero destaca claramente la de Google (sólo imágenes y gráficos) cuyo mecanismo de indización de imágenes parece resultar más eficaz (esto es muy muy interesante)

- Repitiendo los experimentos de Greg Notess en evaluación de motores de búsqueda, especialmente el de buscar en varios motores la misma palabra, en pruebas con más de 400 palabras muestran que FAST daba mayor número de resultados en el 99% de los casos.

- Respecto a Google es evidente que han "tocado" el algoritmo y no lo han hecho bien porque ahora a veces te encuentras resultados raros y no tan bien ordenados. (en un próximo artículo comentaremos un fallo muy misterioso, que me ha dado a conocer un lector fiel)

- Google soporta más de 2000 tipos (extensiones tipo pdf) de ficheros, cuando FAST solo unos 200 o así. Sin embargo los datos delimitados (site, filetype, inurl) de Google son falsos en valor absoluto y solo se pueden utilizar en comparativas internas.

- Parece que últimamente todos mienten con lo que dicen tener: si miramos OpenDirectory (dmoz.org) dice tener 460.000 categorias, lo que significa que su tamaño es como mínimo de 460.000 páginas. Si utilizamos FAST, Google y Altavista para ver el tamaño de dmoz.org los resultados son contradictorios con el tamaño real (declarado) de estos motores. Es un experimento interesante y muy clarificador.

Total, no fiarse nunca de lo que nos dicen. Comparar, comprobar, evaluar, y recordar que, si no encontramos algo en un buscador, igual es porque... está en una biblioteca.

Autor: Jorge Serrano-Cobos | enlace del articulo |

Buscopio de nuevo al ataque

Acabo de enterarme de que buscopio revive en una nueva dirección, buscopio.net. Enhorabuena a Ricardo Fornas, un bibliotecario (sí, sí, un bibliotecario, qué pasa) adelantado a su tiempo con una idea genial y enormemente práctica. Un buscador de buscadores verticales (especializados) organizados temáticamente, con el valor añadido de informarnos previamente de sus características, idioma, etc. Porque no todo está en google, o no está en el orden que necesitamos.

Ah, y por si fuera poco, también mantiene un excelente weblog 'hermano' de éste, si él me lo permite decir así: metodosdebusca. Very recomendeibol.

ENLACES

BUSCADORES

metodosdebusca
Google.Dirson
searchengineshowdown
searchengineguide
searchenginewatch.com
searchengineworld
searchtools.com
zeitgeist
google weblog

OPTIMIZACION-SEO

Xeoweb
Guía-buscadores
researchbuzz
searchengineforums
supportforums.org
bruceclay.com

AYUDAS DE BUSQUEDA

Trucos de altavista
Todo de altavista
Ayuda de google
FAQs de google
Ayuda de Terra
Ayuda de Ya.com
Ayuda de Yahoo

GESTION DE INFORMACION
BIBLIOTECONOMIA
Y DOCUMENTACION

librarian blogs
librarian.net
Abraldes
AlasyBalas
Amoxcalli
Biblioblog
Bibliotekarios
BIDo
Catorze
Chacobo
Clopezpe
Deakialli Docu Mental
Divagaciones sobre documentación
Documentalista en el tejado
Documentalista enredado
Fall in blog
infonomia
Loogic.com
Nosolousabilidad
Programación lógica y recuperación de información
R020 Bibliotecología y Ciencias de la Información
Véase además
Visto y leído

GESTION DE CONTENIDOS

ibai-intranets.com/
infoecm.com
content-0
emc.com
intranet journal
intranetfocus
clickz
site point
Econtent
cms-watch
intelligentkm

USABILIDAD-AI

ainda.info
alzado.org
terremoto.net
webugger
lexonomy
semanticstudios
lourosenfeld

WEB SEMANTICA

blog de la web semantica
semantic-web.org
semantic weblog