Trucos de google - buscadores y gestion documental

::Trucos de google - buscadores y gestion documental

google en español, posicionamiento en buscadores, findability y gestión de contenidos

Bájate el estudio "Usabilidad ElPais.es"

Contacto
Comentarios, aportaciones e improperios, a
Jorge Serrano
Inigo Arbildi

Archivo de trucos

:: 12/18/2002 Autor: Jorge Serrano-Cobos | enlace del articulo |

Diferentes formas de visualizar google y links a una web

Esta le va a gustar a un profe mío especializado en visualización de información, pues os muestro algunas formas distintas de usar y visualizar google:

Directo desde google labs, su google viewer. Funciona mediante la métáfora del video. Puedes incluso ver pasar las respuestas por el navegador, y ralentizar la visualización, hasta que llegues a la respuesta que te gusta. Simpático, vaya.

Mucho más revolucionario, aquí tienes google browser. Permite ver gráficamente todas las relaciones creadas a partir de una web cualquiera. Aquí tenéis un ejemplo con el New York Times:

:: 12/10/2002 Autor: Jorge Serrano-Cobos | enlace del articulo |

Secretos de posicionamiento en buscadores: Google PageRank

La verdad es que, con el cambio de algoritmo de google, ya nadie tiene muy claro cómo se adjudica el ránking de google. Lo que sigue es lo que ocurría hasta ahora, según diversas webs especializadas:

1. Factores para aumentar el PageRank (o ránking de google) independientemente de los links, para cada palabra clave de una web:

- Palabra clave dentro del título (etiqueta "title")
- Palabra clave dentro de la url
- A google le gustan sitios web con muchas páginas pero con relativamente poco contenido en cada una (700-1500 palabras)
- Buena densidad de palabras o frases clave (frecuencia relativa) en cada página. Según expertos, de un 2% hasta incluso un 20 % de frecuencia de aparición de una palabra con respecto al número total de palabras de la página está bien, más allá se considera excesivo por el robot. Para comprobar la frecuencia relativa, una herramienta gratis
- Que el servidor en que está alojada mi web no contenga también páginas porno, etc., a no ser que la propia hable de esos temas.
- Que la palabra clave aparezca en negrita y/o en listas de elementos, destacada, vaya.
- Que la web sea seleccionada dentro de una categoría del directorio ODP
- Que no tenga elementos ocultos (cloaking, texto en blanco en fondo blanco, etc)
- Google parece dar mayor peso a webs más antiguas para una misma palabra clave.
- Si hay imágenes en la web, es interesante poner buenos alt tags con la palabra clave en la descripción de la imagen.
- A google les gustan las webs estables y de urls fijas, no dinámicas.
- Una parte de la web se beneficia del valor que google da a toda la web. Por ejemplo, el CSIC tiene un PR (PageRank) aproximado de 8 sobre 10, lo cual hace que todas las partes de la web, estén mejor valoradas. Así, el CINDOC tiene un PR de 7 sobre 10.

Nota: Para saber el PR aproximado de una web, si usamos la barra de google, teclead la dirección de una web, y veremos una línea verde. Esa es su forma de expresar el Page Rank. Si pasamos el cursor por la línea nos dará el valor numérico asignado.

2. Factores dependientes de los links en el ránking de google:

- número total de links provenientes de otras webs.
- Mejor si los enlaces vienen de páginas con un buen Page Rank global (no sólo para una palabra clave)
- Mejor si los links provenientes lo son de páginas que estén entre los primeros resultados para una misma palabra clave. 1 link de la primera web/resultado en google, para una palabra clave, vale más que 10 links de los últimos resultados de esa búsqueda, por poner un ejemplo.
- Si además esas páginas se enlazan entre ellas y yo participo en esa malla de enlaces, mejor todavía.
- Si te enlazan páginas que estén en el directorio de ODP, mejor todavía.
- También cuentan las autocitas (links internos) si se refieren a la palabra clave.
- Si tu web se actualiza mucho, googlebot pasa por tu web más frecuentemente. Si googlebot pasa por otras webs también actualizadas frecuentemente, y cada semana obtienes nuevos enlaces de ellas, aumenta el ránking, al menos aumenta más rápidamente que competidores más "lentos" en ser actualizados; de ahí el éxito de los weblogs.
- Si en el texto del enlace que te hacen, (lo que se ve subrayado) aparece el título de tu web, muuuucho mejor todavía. Ejemplo: Trucosdegoogle.
- Si en el texto del enlace que te hacen, aparece la palabra clave, muuuucho mucho mejor todavía (nótese que es distinto de lo anterior) Ejemplo: buscadores .
- Al tener varias palabras clave en el texto, la matriz de relaciones y links es más extensa y n-dimensional (n palabras, n dimensiones), no sólo se juega con una palabra. Si para una palabra clave estás bien posicionado, también te ayuda con otra palabra clave. Por eso un buen contenido es muy importante.
- Si el objetivo es crear contenido para el público potencialmente más interesado en leerlo, es bueno saber cómo buscan los usuarios. Para consultar otras palabras clave interesantes, otra herramienta gratis.
- No es ético utilizar link farms (páginas con sólo enlaces y enlaces que se intercambian mutuamente), pues se considera SPAM.

3. AHORA BIEN:

Debido a la proliferación por un lado de los weblogs, (como éste) las mallas de links entre blogs y los google bombing, así como el link farming, se han convertido en un problema de asignación de Page Rank. Véase el último google bombing español, con la palabra clave "prestige".

Por otro lado, hay diversos estudios que han intentado (o conseguido) determinar el algoritmo secreto de google, en principio un secreto como el de la coca-cola. Por ejemplo ver (gracias Alvaro):

- http://www.supportforums.org/pagerank
- http://www.iprcom.com/papers/pagerank/

Tal vez porque hayan acertado, los de google hayan cambiado el algoritmo. Ahora está haciendo locuras, como reconocer SPAM, texto oculto, incluso páginas con una densidad muy grande en la primera parte del texto (cosa que no se veía desde bufff...) Pero todos los foros especializados parecen coincidir en que será algo temporal.

Así que no será el último movimiento de la compañía al respecto. De hecho, lo más probable es que a partir de ahora veamos una tendencia en forma de ola, al estilo de la ley de Price: google cambia el algoritmo, todo el mundo se intenta adaptar al mismo, el sistema se satura, y google vuelve a cambiar.

Más información:

- http://www.supportforums.org
- http://searchengineforums.com

:: 12/05/2002 Autor: Jorge Serrano-Cobos | enlace del articulo |

Google desvela las palabras clave más buscadas de 2001

Mientras preparan un informe con el resumen de lo acontecido en 2002, google zeitgeist presenta su revisión del año pasado.

Entre otras cosas interesantres podemos descubrir las palabras clave (o frases, ojo, no pensar en una sola palabra) más buscadas en las siguientes categorías:

- Top búsquedas más populares (las que suben, Gaining)
- Top búsquedas ya no tan populares (Declaining Search Queries)
- Top hombres de la Red
- Top mujeres de la Red
- Top películas
- Top grupos de música
- Top deportes
- Top medios de comunicación
- Top recursos de Mp3
- Top programas de TV
- Top productos
- Top videojuegos
- Top grandes almacenes (Retailers)
- Top marcas (Brands)

Además, ofrece un interesantísimo gráfico con el timeline de 2001 (línea temporal) Muy interesante desde el punto de vista histórico.

Más información en google press center

:: 12/04/2002 Autor: Jorge Serrano-Cobos | enlace del articulo |

Tolkien y la recuperación de información

Soy fan confeso de "el Maestro" Tolkien desde hace más de veinte años, y ahora mismo estoy devorando la versión extendida del DVD de "El Señor de los anillos: la Compañía del anillo". Debo decir que para un servidor es aún mejor que lo visto en el cine. Más de 20 horas de material. Absolutamente recomendable.

Y ahora llega la segunda parte, "Las dos torres", que incorporará la que probablemente será la secuencia de batalla más larga de toda la historia del cine (40-50 minutos) Unos 10.000 orcos atacando el Abismo de Helm.Y eso no es nada con lo que vendrá en la tercera, me estremezco de pensar en la batalla de los campos del Pelennor. ¿Cómo hacen eso y qué demonios tiene que ver con encontrar información?

Para el desarrollo de las evoluciones de los diferentes ejércitos digitales que participan y de cada uno de los guerreros, usan un programa específicamente diseñado al efecto, llamado MASSIVE. En resumen, se configuran una serie de "agentes", uno por cada guerrero, creados mediante inteligencia artificial.

Cada agente tiene una serie de parámetros básicos grupales (soy un orco malo-maloso, no me caen bien los elfos, etc) y otros parámetros aleatorios que caracterizan y diferencian a cada uno de los individuos-guerreros-agentes, dentro de unos límites (dentro del rango fuerza 1-5, tengo un 4,5, rango agilidad de 1-10, tengo un 4 de agilidad) casi como un juego de rol. Luego se les deja avanzar por el territorio e interactuar con el entorno.

Así, cuando se pegan un elfo y un orco, si el elfo tiene un índice de fuerza sólo algo menor que el oponente arriba descrito, pero con mucha más agilidad, pues el elfo gana -es un ejemplo- y así multiplicado por 20.000 personajes, con lo cual la escena gana en realismo. ¡Ya te digo!

Esta relación con el entorno de agentes autónomos está basada en una rama de la inteligencia artificial muy interesante, es la llamada "vida artificial". Grosso modo, se permite a los agentes interactuar y tomar decisiones basándose en lo que percibe. Aplicada a la recuperación de información puede permitir crear agentes personales que, partiendo de unos parámetros ofrecidos por el usuario, trabajen con el entorno de información (internet, intranets, bases de datos) para ofrecernos una información pensada exclusívamente para satisfacer nuestras necesidades. Además, cada usuario puede crear tantos agentes como necesidades de información.

Basándose en lo que encuentran y nuestras reacciones o lo que leemos, detectan si responden o no a nuestro problema, y en consecuencia, aprenden y mejoran en cada interacción, "evolucionan".

Los algoritmos genéticos son una de las aproximaciones a esta filosofía de programación evolutiva, y se están aplicando a este campo de la recuperación de información. Para saber más del tema, os recomiendo contactar con Oscar Cordón, profesor de la Facultad de Documentación de Granada, un "máquina" que ya ha desarrollado algún proyecto real, que funciona en entornos empresariales.

Otra aproximación a este campo es el de los animats, que imitan a los insectos sociables como las hormigas o las abejas. Simplemente a cada agente o programita -cada "abeja"- se le dan unas leyes muy sencillas; como tienes a muchos interactuando y ayudándose mútuamente, funcionando en grupo, son capaces de realizar tareas complejas que uno por uno, no serían capaces de hacer. Sería lo contrario a la clásica inteligencia artificial, que intenta imitar mentes más complejas como la humana.

En fin, ¿ciencia-ficción? Bueno, por ahora, lo único que conozco que funciona en plan comercial en el campo de la inteligencia artificial es autonomy. Tiene sus más y sus menos, pero vaya, quizá el futuro vaya por aquí. Una empresa española que ya lo usa es mynewsonline. Otro día le echamos un ojo, ¿vale?

Y en un orden mucho más simple pero muy útil y práctico, pues tenemos el famoso copernic.com, un agente personal metabuscador concebido para ayudarnos en tareas repetivas de búsqueda avanzada. Muy barato para todo lo que hace, ¡y tiene una versión reducida gratuita!

Más información

- Artificial Life Applied to Adaptive Information Agents
- Directorio de google sobre Agentes Artificiales
- Muchos robots y agentes personales gratis o de pago

ENLACES

BUSCADORES

metodosdebusca
Google.Dirson
searchengineshowdown
searchengineguide
searchenginewatch.com
searchengineworld
searchtools.com
zeitgeist
google weblog

OPTIMIZACION-SEO

Xeoweb
Guía-buscadores
researchbuzz
searchengineforums
supportforums.org
bruceclay.com

AYUDAS DE BUSQUEDA

Trucos de altavista
Todo de altavista
Ayuda de google
FAQs de google
Ayuda de Terra
Ayuda de Ya.com
Ayuda de Yahoo

GESTION DE INFORMACION
BIBLIOTECONOMIA
Y DOCUMENTACION

librarian blogs
librarian.net
Abraldes
AlasyBalas
Amoxcalli
Biblioblog
Bibliotekarios
BIDo
Catorze
Chacobo
Clopezpe
Deakialli Docu Mental
Divagaciones sobre documentación
Documentalista en el tejado
Documentalista enredado
Fall in blog
infonomia
Loogic.com
Nosolousabilidad
Programación lógica y recuperación de información
R020 Bibliotecología y Ciencias de la Información
Véase además
Visto y leído

GESTION DE CONTENIDOS

ibai-intranets.com/
infoecm.com
content-0
emc.com
intranet journal
intranetfocus
clickz
site point
Econtent
cms-watch
intelligentkm

USABILIDAD-AI

ainda.info
alzado.org
terremoto.net
webugger
lexonomy
semanticstudios
lourosenfeld

WEB SEMANTICA

blog de la web semantica
semantic-web.org
semantic weblog