::Trucos de google - buscadores y gestion documental

google en español, posicionamiento en buscadores, findability y gestión de contenidos

:: 3/31/2003 | enlace del articulo |

La arquitectura interna de google

Gracias a Ramón Buenaventura he descubierto unos pdf fantásticos, de Martín Llamas Nistal y otros profesores de la E. T. S. de Enxeñeiros de Telecomunicación de Vigo. En uno de ellos explica muy bien, concisa y gráficamente, cómo funciona la estructura interna de Google.

En realidad el texto está basado (es casi una traducción resumida) en el ya famoso documento original de Sergey Brin y Lawrence Page, co-creadores de google, titulado "The Anatomy of a Large-Scale Hypertextual web search engine".


:: 3/27/2003 | enlace del articulo |

Carta abierta a los plagiadores en internet

Querido plagiador que me lee ahora y ha plagiado o plagiara esta web: acaban de darme una buena noticia (mala para usted):

Isidro aguillo en iwetel ha comentado el caso aparecido en High Rankings Advisor de Debra O'Neil a quien le plagiaron una página. Como no retiraron el plagio, expuso el caso ante google, mediante su spamreport.

Lo mejor es que google quitó la página plagiadora de su base de datos, y en los resultados de búsquedas para esta página aparecía una advertencia de que estaba acusada de violar la Digital Millennium Copyright Act. ¡BIEN POR ELLOS!, ¡mejor que los abogados!

El caso es que a mí me ha pasado lo mismo. El sitio web comercial noticiasdot.com nos ha plagiado parte de un artículo sobre unclesam. Aquí podéis ver ambas versiones:

- la versión plagiada de noticiasdot.com
- la versión original de trucosdegoogle. Hasta ha copiado el ejemplo de otros dominios como el francés. ¿No podía haber elegido otro país para que se notara menos? pffff....

Les/os escribí una carta (creo que bastante amable) al respecto, pero todavía estoy esperando respuesta. Quizá no les haya llegado, por lo que si alguno se lo quisiera hacer saber (hacedlo por favor ;-) aquí tenéis algunos de sus correos de contacto: angel@noticiasdot.com, redaccion@noticiasdot.com, info@noticiasdot.com.

Por mí se lo podéis hacer saber muchas veces, todos los que queráis.

La verdad es que no son los únicos que lo han hecho, pero hasta ahora no me había molestado. Entre bitacoreros se entiende. Yo mismo muchas veces escribo sobre noticias que me pasáis algunos sin darme la fuente original y os cito a vosotros que sois mi fuente, o he releído lo mismo en tantos sitios preparando un artículo que ya ni me acuerdo donde cogí este dato o aquel otro, y a otros les puede pasar lo mismo, es normal y no hay que ponerse quisquilloso. Otro día lo harán, de buen rollo, vaya.

Pero es que estos señores cobran por lo que han hecho, y eso ya no está nada bien, no es profesional.

Es una pena no entender internet. Si leísteis el anterior artículo, plagiadores, leeréis éste. Con lo a gusto que uno escribe estas cosas y lee a otros que saben más que uno, y cómo fastidia que se aprovechen del esfuerzo ajeno así. Y no lo entiendo, en otra parte de la web me citan, y citan a mucha gente, no parecían del tipo "voy a saco y no respeto a nadie". Espero que sea un caso aislado o un error, tiene que serlo, y no os haya pasado a muchos de los que me leéis.

Además, hace falta ser torpe, lo que han usado tal y como se expresa tiende a producir un error, es una falacia. Precísamente ésa es una ventaja de citar. Si metes la pata y no corroboras y contrastas la noticia, dato o teoría, siempre puedes aducir que la culpa es del otro. En fin...

Igual la semana que viene pruebo lo de spamreport, hmmm, sólo por ver qué pasa. Además, como ahora google tiene mis archivos en blogspot, supongo que no habrá quien dude de la veracidad de la fecha de publicación de mi artículo. Hombre, también hay otras formas de abordar estos asuntos, cualquier especialista en posicionamiento sabe qué se puede hacer al respecto, jejeje, aunque tampoco merece la pena...

No me gusta nada tener que ponerme a malas con nadie, pero supongo que en algún momento uno tiene que decir "hasta aquí hemos llegado". A ver si por lo menos alguno aprende periodismo, conozco unos cuantos buenos/as profesionales y es una pena que otros se carguen la profesión de esta manera. Triste...

En fin, yo por mi parte, aunque aficionado, haré un esfuerzo, e intentaré aportar la fuente de noticias y artículos interesantes que me pasáis; no dejéis de hacerlo, gracias mil.

Una vez más, gracias a todos por estar ahí.


:: 3/20/2003 | enlace del articulo |

Google descubre a Bin Laden

Fernando Siles me cuenta que google ha encontrado a Bin Laden con una de las características añadidas menos conocidas de google, el phonebook (listín telefónico). ¡Está en Washington DC! ;-)

La influencia de los buscadores en el e-commerce

En eMarketer leemos un artículo que nos comenta cómo DoubleClick calcula que en las Navidades pasadas, el 41% de los consumidores americanos llegó a un sitio web para comprar online desde un buscador. De lo cual se deduce que los motores de búsqueda están teniendo cada vez más peso en la estrategia de publicidad y marketing online.

Yo por mi parte, como lo he vivido, también deduzco que como algunos malos profesionales han metido y meten la pata poniendo banners y pop ups hasta en la sopa sin que el banner tenga nada que ver con el contenido entre el que se visualiza, pues jódete, la gente se harta de banners inútiles, no les hacen caso, los precios de los banners bajan y necesitas más millones de impresiones para conseguir vender alguna campaña cutre de webs guarras (¿tengo que nombrar portales?)

En vez de hacer algo que cualquier documentalista entiende. Lo que está relacionado de alguna forma (por género, por edad, semánticamente, temáticamente, geográficamente, por hora de navegación, ¡algo!) no molesta al usuario y al revés, se percibe como un detalle de calidad y/o al menos no aporta excesivo "ruido" informativo.

Ojo, que no lo digo sólo yo, ver este foro tan interesante en planetamedia.com: ¿está acabada la publicidad en Internet o tiene futuro?

Mientras tanto, google gana dinero desde 2001. SOLO con publicidad.

Anacubis vende otro visualizador de google

SearchDay nos cuenta cómo una empresa ha creado una herramienta de esas por las que babearía: es capaz de descubrir relaciones ocultas en los resultados de las búsquedas de google, como redes terroristas, o intereses comunes entre empresas a priori no relacionadas; e incluso, permite inteligencia competitiva en análisis de patentes (con Questel Orbit, la distribuidora de bases de datos).

Muy útil, más aún si le sacas partido junto a un sistema de data mining y business intelligence. Vimos algo relacionado ya cuando hablamos de google browser. ¡Ah! necesitas una llave gratuita de google API, y podrás probar la herramienta gratis.

Congresos sobre buscadores

  • II Jornadas de Tratamiento y Recuperación de Información (JOTRI)
    Unas jornadas interesantes en los Madriles, allá por Septiembre, por si alguien quiere preparar una comunicación. No creo que pueda ir, no me importaría; en cualquier caso, si alguien va que nos cuente, porfaplisss:

    Entre los días 8 y 9 de septiembre de 2003 tendra lugar en la Universidad Carlos III de Madrid. Las Segundas Jornadas de Tratamiento y Recuperación de la Información. Las Jornadas tienen como fin crear un foro común entre documentalistas, lingüístas e ingenieros para discutir propuestas sobre recuperación de información y la gestión y organización del conocimiento.

  • Y en Searchenginewatch descubro más congresos sobre buscadores e interfaces de búsqueda. Por si apetece...


:: 3/14/2003 | enlace del articulo |

¿A que no sabías todo esto de google?

aprende a sacarle el mejor provecho a google

Google también tiene errores 404
Increíble pero cierto. Aparte del fallo de conexión que tuvieron el otro día, como nos comenta Dirson, también tienen algún que otro famoso error 404. Y por cierto, tanto que cacareamos de la usabilidad de google, este detalle se lo han saltado. Se puede hacer más con un error 404, vaya.

Jakob Nielsen es consultor de google
¡Arrea! Pues tengo que hablar yo con éste, porque aparte de lo que todo el mundo usa, tampoco te cuesta tanto mejorar un poco la opción "todo acerca de google" que hay opciones e informaciones ocultas en los sitios más insospechados.

Aunque igual les gusta ponerlo difícil ¿?

El verdadero tour de google
En vez de éste famoso y vistoso tour de google, pos yo prefiero el tour de la ayuda de google pero completita, mucho mejor ¿no?

Sacando lo mejor de google
Un manualillo molto facile e divertente para encararse con el tema de una forma simpática y muy visual. ¿Y esto por qué está por ahí perdido y no lo ponen nada más empezar? Facilitaría mucho la labor a niños y abuelos, vaya...

Todas las características especiales de google: diccionario, spell check, etc.
Que yo sepa, esta información no está disponible en castellano. Hasta ahora ;-)

Cahe: la foto que hace google de nuestra página cuando indexa su contenido.

Definiciones de diccionario:si la tiene, te sale la definición de la palabra que buscas.

Formatos de archivo:búsqueda de diferentes formatos. Me encanta buscar cómo hacen los power point en Microsoft, jejeje.

Voy a tener suerte: si te fías de google (no lo hagas) te lleva directo a la primera página que da como resultado de tu búsqueda.

News: noticias que coinciden con tu búsqueda. En cuanto pueda os cuento cómo explotar las noticias de google, lo que se puede hacer...

Listín telefónico: sólo para yanquis, te da el número de teléfono y la dirección de otros yanquis.

Páginas similares: páginas parecidas, bien por el contenido (semánticamente) bien por el formato (si busco páginas relacionadas con el periódico el mundo, me da otros periódicos).

Búsqueda en un dominio: puedes buscar todas las páginas que hablen sobre algo pero sólo en un sitio web concreto. Combinando esto y quello es perfecto para hacer... ¡espionaje industrial!

¿Qué decía? Ah sí, todos los power point en castellano que hay en microsoft...

Spell Checker (¿quiso decir...?): alternativas a la palabra que has puesto, por si la has tecleado mal.

Callejero: también exclusivo para yanquis, búscate un mapa de esa calle de Los Angeles.

Web Traductor: traduce palabras y sitios web compeltos. Hace algunas pifias muy divertidas, pero vaya, ta bien.

¿Quién te enlaza? Para saber quién cree que sirves para algo, je.

Buen finde


:: 3/11/2003 | enlace del articulo |

Movable type no es un CMS (¿o sí?)

Estoy saturadito de google. Así que hoy passsso de google. Hoy, gestión de contenidos (CMS o Content Management Systems)

Antes de nada, aprovecho para dar la bienvenida a una nueva web especializada en ECM (Enterprise Content Management), infoecm.com. ¡Enhorabuena José Miguel! ¡Ya me ha llegado su primer boletín, Eureka! ¡Hala, todos a leérle!

En un interesantísimo artículo de Luis villa en alzado.org, titulado Razones para implantar Gestión de Contenidos en la empresa, se generó en interesante debate sobre cuál usar, y se mencionaban sistemáticamente sistemas de publicación en portales como Movable Type (MT), Php Nuke, o Radio y Blogger.

CMS, ECM, WECM, DMS, GED ¿y qué más?

Al parecer había (hay) cierta confusión sobre el tema, yo mismo la tengo. Es lógica porque es un palabro relatívamente novedoso, y quizá los que escribimos en la web a veces sólo pensamos en la web. En primer lugar, Luis hablaba en su primer ejemplo más de un problema resoluble por la Gestión Documental (llamada GED o DM) que por la Gestión de Contenidos, pero vaya, que nos gusta ponernos pejigueros y tampoco es cuestión.

Es curioso que para muchos el problema es adaptarse de la Gestión de Contenidos en web a la de otras cosas (facturas, conversaciones telefónicas, videoconferencias, etc) Mi problema ha sido el contrario, pues yo provengo de la Gestión Documental. Ese intercambio de experiencias puede ser muy rico, ¿no?

La Gestión de Contenidos es conocida también como ECM (Enterprise CM) ¿o no, o hablábamos de WCM (Web Content Management) o incluso de WECM? ¡aaarg! A las herramientas con las que se desarrolla se las llama CMS (Content Management System) es mucho más que publicar en la web, o debería serlo, claro, pero ni los estudiosos del tema tienen tan claro si el CM es algo distinto del DM (Document Management o Gestión Documental) o no, o si se complementan. A estas alturas ya me agota tanto término.

De todos modos, los comentarios son de lo más interesante. Por ejemplo, una pregunta de Anónimo: "Según vuestra opinión, qué características MINIMAS creéis que debe tener un CMS para ser considerado como tal?" (qué buena andanada, sí señor) y una contestación de Jose Miguel Cacho: "Lo que diferencia un CMS de "otra cosa" es su capacidad para REUTILIZAR el contenido. Gestionarlo se da por hecho ;-)".

Preguntémonos el "por/para qué" antes de "con qué"

Todo esto me lleva a replanteármelo todo, así que tengo que leer y ver más cosas. Pero creo que Iñigo y el menda coincidimos en que para ser considerado un CMS según la etiqueta, a MT le falta el control de versiones y el workflow (más bien "infoflow") y si habláramos de cualquier tipo de contenido, le falta todo lo que es el archivo de contenidos que no sean html (imagen, sonido, multimedia en general) y la entrada directa de media en cualquier formato (uso de archivos .doc, excel, y otros formatos)

Aunque claro, si lo mezclamos con MySQL, y con esto y aquello, etc, y un poco de imaginación, y hablamos sólo de Web Content Management, pues igual cumpliría lo de los MINIMOS, aunque sigo pensando que entonces MT se quedaría como un módulo de tu "solución" de gestión de contenidos. Confuso ¿no? ¿cómo lo veis?. En cierto modo, tampoco los grandes software CMS lo hacen todo todo, vaya. Siempre cojean de algo y hay que integrar (¡horror!)

Aparte de cuestiones semánticas o de etiquetas publicitarias más o menos vendibles, si es o no es algo CMS, al final, la cuestión es resolver nuestro problema, demonio; así que a fin de cuentas nos dará igual cómo llamarlo, con tal que funcione. Y que sepamos qué hacer con él, claro.

Selección de enlaces interesantes

The Ideal CMS -- 2002
Lista explicativa de características de un CMS modélico: desde gestión de roles y seguridad, versionado, workflow, a personalización o sindicación. Además, señala los mejores programas de cada categoría (Documentum, Vignette, etc, ¡incluso Zope que es gratuito!)

5 Biggest Mistakes in CMS Selection
Es interesante comprobar algo que los que lo hemos sufrido como clientes, ahora tenemos grabado a fuego: que el problema no es tanto el software que usamos, sino si entendemos para qué demonios lo usamos.

El problema es la utilidad que vamos a dar al software y el proyecto (¿sabemos qué queremos hacer?) que suele componerse de software + empresa cliente (donde todo quisqui quiere opinar aunque no tenga ni idea de lo que quiere ni de lo que realmente necesita porque quizá no haya hecho una auditoría de información) + empresa integradora (como la nuestra, serikat.es, que te desarrolla el proyecto y/o te hace la consultoría)

Como dice Oriol, de estamosdeacuerdo.com, los sistemas como Movable Type hacen cosas más que suficientes en muchos casos. Un buen consultor te debería decir eso, y no venderte la moto para que te compres Vignette porque sí.

Adobe Acrobat 5.0. o de cómo montarse un sistema de gestión documental en casa
Nuestro Iñigo ya explicó que a veces, sólo hace falta ingenio para solventar un problema. En este caso vemos que con un simple Adobe Acrobat, por 50.000 pelas de licencia, puedes tener tu oficina sin papeles.

Webs de interés:

-cms-watch
-infoecm.com
-content-0
-Column two
-Listado bastante exhaustivo de herramientas CMS. Todavía no sale MT.
-Otro listado, de CMS basados en XML.

Cursos de interés en España:

-Aplicaciones XML, Metadatos y Gestión de Contenidos Web
-Gestión de contenidos en las empresas

PD: "toy infoehtresaaaooo" ;-)


:: 3/06/2003 | enlace del articulo |

Analisis de las bases de datos de google y URL´s no indexadas

¡Que semana! tantas cosas que he descubierto bufff... Sólo puedo poneros unos cuantos enlaces. Lo primero es mencionar a Greg Notess, una "bestia parda" en esto de los buscadores. El sí hace investigación; no cita a nadie, hay que citarle a él. Acaba de actualizar muchas cosas en su web searchengineshowdown, pero ahi van algunos estudios de interes:

- Analiza las bases de datos internas de google: al parecer hay muchas web que todavía no ha indexado (500 millones de webs). En el análisis, un dato muy interesante, las webs reindexadas (visitadas) cada día son unos 3 millones, el 0.15% de su base de datos.

- Cómo identificar webs no indexadas: esto os interesa a muchos, leed, leed.

- Comparativas de buscadores: destaco hoy las estadísticas comparativas, en concreto la de frecuencia de indexación.

La semana de los buscadores en metodosdebusca

Para qué repetirse, mejor citar al creador de buscopio con un poco de deep-linking amistoso:

- El buscador Alltheweb se renueva. ¿Copiando de nuevo, FAST?
- Nuevas herramientas de búsquedas en Lycos. 200 millones de imágenes más.
- Aumenta la presión para controlar y censurar los buscadores. De eso sí hay que hablar un día de éstos.
- Google el buscador preferido por los españoles. Y por los hindúes...
- Los grandes grupos periodísticos amenazan la gratuidad de buscadores de noticias, bases de datos y resúmenes de prensa.
- Las palabras más buscadas por internautas españoles Según Espotting Media. Por otros foros dudan de que este informe sea muy fiable. Para coger con pinzas.
- Etc, etc... Lo tenéis todo en metodosdebusca (sorry, no tiene enlaces en cada artículo)



:: 3/04/2003 | enlace del articulo |

Todos los filtros y operadores de google

Además de los clásicos operadores booleanos, aquí tenéis una lista de comandos y filtros de google, que nos permitirán realizar una consulta mucho más elaborada y específica. Creo que no se me ha olvidado ninguno:

cache: la "foto" de la última vez que googlebot (el robot de google) pasó por la web y la indexó.
link: para buscar webs que pongan un enlace a cierta web ("sitas" o citas de sitios web)
related: páginas relacionadas o parecidas con la página de inicio de aquella web que usemos como referencia.
info: muestra la información que google tiene de nuestra página de inicio o principal.
stocks: da información de bolsa sobre una empresa. Necesitamos conocer su símbolo correspondiente. Para ello podemos consultar la página http://finance.yahoo.com/l Por ejemplo, Coca-Cola.
site: combinado con una palabra clave (o varias), restringe su búsqueda de esa palabra clave al sitio web indicado.
allintitle: restringe la búsqueda únicamente al título de la página web (aquello que está entre las etiquetas y )
intitle: única forma de operador OR que hay en google. Si usamos dos palabras en nuestra ecuación de búsqueda, permite buscar lo primero en el título y lo segundo en el resto del sitio web.
allinurl: igual que allintitle, pero buscando en la URL
inurl: idem de intitle, pero con la URL.

-Varios de estos comandos se pueden combinar entre sí en una misma ecuación de búsqueda. Se ve mejor con un ejemplo: para encontrar todo lo que tenga la palabra "documentación" en el titulo de la web y además sea en sitios web sólo de España, o mejor dicho, sitios web con dominio .es teclearemos la siguiente ecuación:

site:es intitle:documentacion

No podemos combinar todas las opciones posibles, como el comando link: que parece que no permite mezclarse con ningún otro.

- Otro ejemplo, saber cuántas páginas indexa google de un sitio web concreto:

inurl:elpais site:elpais.es

Filtros en búsqueda de imágenes:

- Fecha: publicado hace 3 meses, 1 año...
- Por formato: pdf, word, excel, power point, etc.
- Tamaños de imagen: pequeña, grande... No especifica qué es "grande" para google.
- Tipo de imagen: JPEG, GIF...
- Color de imagen: en blanco y negro, escala de grises, colores...

Filtros en búsqueda de Foros

- Grupo de discusión (sólo en foros o grupos)
- Autor (sólo en foros)
- Identificador de Mensaje (sólo en foros)
- Orden por relevancia / por fecha (sólo en las noticias de google)

Más información:

http://www.google.com/help/operators.html
http://news.google.com/help/
http://news.google.com/help/faq_filetypes.html


:: 3/03/2003 | enlace del articulo |

Patentes de google y Content adwords
Muchas noticias y tan poco tiempo: Blogger publica unas FAQS sobre su compra por parte de Google y mientras Google anuncia su nuevo servicio contentads, y citando textualmente "El servicio de publicidad segmentada por contenido es nuestra última adición. Este servicio muestra los anuncios de AdWords(tm) de Google en las páginas Web de contenido relacionado con las palabras clave que usted ha seleccionado-- de modo que pueda conseguir más atención y aumentar el alcance de su campaña de AdWords."
Además, en un comunicado de prensa, google comunica que por fin ha obtenido las patentes de varias de sus invenciones, como el PageRank.

Pero no sólo ellos acaban de inventar algoritmos y aplicaciones relacionados con la recuperación de información. ResourceShelfExtra nos muestra las patentes de google y de otros (IBM, NEC, Lingo, etc) referentes a la recuperación de información y servicios asociados. Para leérselo con calma. Aquí tenéis unos ejemplos:

Patentes de Google:
-"Methods and apparatus for using a modified index to provide search results in response to an ambiguous query"
-"Methods and apparatus for employing usage statistics in document retrieval"
-"Methods and apparatus for providing search results in response to an ambiguous search query"

Otras patentes relacionadas de otras empresas:
-"On-line geographical directory"
-"Information search method based on dialog and dialog machine"
-"Automated decision advisor"
-"Systems and methods of retrieving relevant information"
-"Selective retrieval metasearch engine"
-"Method for searching for contents of a computer network"
-"Method of doing business by indentifying customers of competitors through world wide web searches of job listing databases"
-"Category-based selections in an information access environment"

Más información:
- Publicidad segmentada por contenido de Google
- Todas las últimas patentes relacionadas con recuperación de información