::Trucos de google - buscadores y gestion documental

google en español, posicionamiento en buscadores, findability y gestión de contenidos

:: 5/27/2003 | enlace del articulo |

Sindicación (parte III) agregar secciones temáticas

Hemos visto una forma de agregar noticias de google, muy específicas pero en inglés, aunque ahora ya podemos encontrar noticias en castellano insertadas en nuestras búsquedas, por ejemplo aznar.

Queremos agregar información específica, pero de blogs o webs que no están en google news. Aquí tengo que agradecer a Pedro Palazón (kusor.net) por su ayuda, el mayor conocedor de este campo en el ámbito hispano, que yo sepa. Pedro me ha comentado que lo que se podría hacer es agregar sólo aquellos temas de mi interés mediante un parser RSS.

Agregar una web entera o agregar una temática de varias webs

Bien, la cuestión es que quisiera no tener que agregar todo lo que salga de un blog, sino sólo aquello que hable de lo que a mí me interesa. Si eres lector experto de weblogs, verás que muchos (véase los creados con Movable Type) tienen categorías para clasificar sus artículos. Es con esas categorías con las que podemos obtener fuentes de información más específicas. En este caso no hablamos de agregar una cadena de búsqueda, sino una categoría, una temática concreta.

Por ejemplo, para los que usan como clasificación temática "google" o "usabilidad", sería genial poder agregar en mi feedreader sólo lo correspondiente a esos temas, y así agruparme los feeds por temas de webs, no por webs sobre temas, porque muchos blogs hablan de varias cosas diferentes (véase las categorías demini-d, por ejemplo) y mi tiempo de lectura es finito.

En palabras de kusor: "en primer lugar tendrías que crear un parser RSS, o emplear uno de los que existen, para buscar la categoría de lo que la gente escribe. Por ejemplo, en el archivo rdf (en formato RDF, ojo, sólo en ese formato) de mi web hay un elemento denominado "dc:subject" , que contiene la categoría a la que pertenece cada post (artículo). Tendrías que crearte una lista de aquéllas categorías sobre las que te gustaría mantenerte al día, y decirle a ese parser que sólo procesase esas noticias y que descartase las demás".

Para que veamos en concreto dónde está dc:subject, buscadlo en la versión rdf de kusor.net . ¿Lo veis? XML es el dc:subject, la categoría temática que quiero agregar, por ejemplo, si no me interesaran otros temas de kusor, en este caso.

Hoy por hoy no conozco nada en plan "plug and play" que me permita hacerlo de forma sencilla y agregarlo en mi feedreader o similar sin más. Sigo a la búsqueda. Para el que sepa más, el amigo kusor nos recomienda usar el parser OnyxRSS.

Pedro me dice también: "Dentro de poco tengo intención de ponerme a escribir sobre PEAR, una librería de PHP, entre cuyas clases se encuentra un parser RSS, y explicar cómo emplearlo y extenderlo para usarlo en la propia web y mostrar noticias de otros. No es exactamente lo que necesitas, pero deberías empezar por algo parecido para filtrar las noticias y mostrar sólo las que tú quieres.

Un ejemplo de su uso lo tienes en la versión de k10k para PDA. El script de PHP en sí se encuentra en la web de PEAR"

En este momento hay muchas discusiones sobre estos temas, en concreto alrededor de Aaron Swartz, de google weblog, que además es co-creador del estándar RDF, y la guerra entre estándares sigue en pie (que si Dublin Core es muy complejo y más todavía rdf, que si google entiende esto y no aquello y lo condiciona todo hoy día porque si no estás en google, no existes, un lío).

Resumiendo: por el momento tenemos pues dos niveles de ser más específicos agregando contenidos: uno, con búsquedas hechas por expresion clave (o palabras clave) como veíamos en el artículo anterior. Otro con el parser para agregar temáticas específicas, algo complejo porque todavía no se sabe si va a ser rdf quien gane la partida, que es con el que se puede hacer. Si gana rss, pues es un formato que sólo sindica titulares, y poco más. Por ejemplo, si sindicara la versión rss de kusor, de cada ítem (post,noticia o artículo) sólo leería el título y una descripción, nada de subjects.

RDF está más pensado para, en un futuro ideal, trabajar junto a otros estándares hacia la Web Semántica (Ontologías y tal). RSS es más sencillo de implementar, pero con menos riqueza informativa, menos metadatos.

Pues nada, hay que ponerse las pilas con esto, me interesa muchísimo. Pero aún hay más que hablar relacionado con este tema.

Eso sí, el próximo día. Si sabéis algo más, ya estamos poniendo un comentario, porfaplis.

Más información:
- Los grupos de news de google sobre RDF
- El foro rss-dev de yahoo groups en el que participa Aaron
- Un truco de Microdoc news para buscar rss y rdf que hablen sobre algo en google, por ejemplo: IRAQ filetype:rss OR filetype:rdf OR filetype:rss.xml

PD: ¡¡¡ATENCION!!! Por cierto, hay problemas entre blogspot y mi servicio de mensajería, bloglet. Lamento mucho no poder manteneros al día vía correo electrónico. En cuanto pueda restableceremos la comunicación. Gracias por vuestra paciencia.


:: 5/21/2003 | enlace del articulo |

Sindicación de google (parte II) sindicar noticias de google

Habíamos visto que muy pronto tendrás tantas webs agregadas que el volúmen de noticias irrelevantes que tendrás que descartar para encontrar las que realmente te interesan será cada vez mayor, incluso aunque agregues webs muy especializadas. Vamos a ver dos formas de solucionar esto, para que recibas información más y más específica y actualizada. Una es sindicando noticias de google. Otra, con un parser RSS.

8. ¿Cómo puedo sindicar (y agregar) noticias de google?, Voidstar ha desarrollado esta herramienta EXPERIMENTAL tan interesante, Gnews2RSS. Veamos cómo funciona:

9. Introduce una palabra (mejor en inglés, recuerda que trabajas sobre google news y no tendrás noticias de cualquier cosa en castellano, todavía) como si buscaras algo en google y pincha en "create RSS"

10. Es importante definir muy bien mi ecuación de búsqueda, por ejemplo google OR usability -blogger

11. Copiar y pegar la dirección o URL resultante en la opción NEW de feedreader. Puedo configurar cada cuanto quiero que el agregador revise si hay novedades, para que haga la búsqueda cada cierto tiempo y ¡hop! me da las noticias del tema que me interesa cada 20 minutos, por ejemplo. Mejor no ponerlo a esa frecuencia de consulta, porque si lo hacemos todos saturaremos el servidor de alguien, jeje.

Como vemos, una herramienta muy muy interesante y con muchas posibilidades. Si sabes php, lo mejor sería que usaras su código fuente, disponible en http://www.voidstar.com/gnews2rss.php.txt

El problema de esta herramienta es que las news de google sólo cubren 4.000 servicios de noticias, la mayor parte en inglés. Mientras aumenta el número de fuentes de información, no hay más por ese lado.

La pena es que los blogs (y poco a poco, muchas otras webs de mayor calado), con esa información tan estupenda, no están entre esos 4.000. Y a mí lo que me gustaría es hacer con los blogs lo mismo que con google, agregar sólo los artículos/posts de los temas que me interesen de cada weblog. Todavía no puedo hacer con las búsquedas en el google "general" lo mismo que con el google news. Si alguno sabe que me lo diga, por favor. Lo único que he descubierto en ese sentido es un google hack de Tara Calishain, que me permite transformar mediante Perl y una API, las respuestas de google en un fichero delimitado por comas, que puedes exportar a una base de datos de una intranet, por ejemplo.

La otra forma de conseguir noticias (de blogs) más específicas con respecto a un tema concreto es más compleja, un parser RSS, gracias a Kusor. Para el próximo post.


:: 5/19/2003 | enlace del articulo |

Sindicación de google (parte I) introducción a la sindicación y la agregación

Este truco os va a encantar, seguro, aunque es largo y complejo de explicar, porque sé que muchos lectores no sabéis ni de qué estoy hablando. Ultimamente me estoy dedicando a investigar las posibilidades de la sindicación de información. He encontrado una aplicación estupenda y gratuita que me permite estar actualizado casi al minuto de las últimas noticias que se producen sobre una palabra clave o expresión de búsqueda concreta. Tiene sus limitaciones pero esto promete.

Voy a ir paso a paso, para aquellos que ni siquiera saben lo que es la sindicación. El que sepa más que queme etapas o espere a la siguientes partes (3 más):


1. ¿Para qué sirve RSS y la sindicación de información? Con la proliferación de sitios de noticias, blogs, artículos, etc, generada a diario en la red, cada vez nos resulta más difícil estar al tanto de toda la información disponible, ni visitando tus "favoritos" ni buscando en google.

Pero los blogs han puesto de moda la sindicación de noticias: ofrecen su información en formato RSS (esto es, sindican su información, permiten que se reutilice) RSS es un formato legible por unos programas (agregadores) que aunan todas esas informaciones (feeds) agregando todos los artículos sindicados (de ahí que a estos programas les llamen agregadores) y consultando cada cuanto queramos todas esas estupendas fuentes de información. Nosotros sólo tenemos que esperar y leerlas todas desde un único punto de lectura. A mí me ha supuesto una revolución en la forma en que navego por la red.

2. ¿Qué es RSS? Rich Site Summary (RSS) es un formato de intercambio (sindicación) de contenido. Está basado en XML y tiene dos estándares, una de ellas toma como referencia a RDF (un formato de metadatos) que es la que parece que se va a imponer (además, está intimamente relacionada con la web semántica) Básicamente nos permite no tener que navegar web a web para leer cada día lo nuevo que sale en ellas. Lo puedo leer sin navegar, con una herramienta de agregación de noticias.

Si todavía no lo tienes claro, mejor leerse con calma:

- ¿Cómo lees tus bitácoras favoritas?
- RSS Para Principiantes
- La guerra del RSS, de Iñigo Arbildi
- Y para entenderlo con detalle, el tutorial RSS Workshop


3. ¿Qué es un agregador? El agregador lee y entiende los feeds, las fuentes de información sindicadas de cada sitio web que yo haya elegido, y ofrece los titulares de cada contenido de cada fuente. Primero vemos los titulares, así decidimos si nos interesa el contenido. Pinchando en el titular podemos leer un resumen, o bien el contenido completo. Se parece mucho a un programa de correo estilo outlook.

4. ¿Dónde consigo un agregador? Hay muchos; yo uso feedreader. Simple, cómodo, limpio, en Windows; "para torpes" como yo, vaya. Nos lo podemos descargar directamente, y ya está instalado, sin más.

5. ¿Cómo agrego cualquier cosa? Ya tengo mi programita pero ahora tengo que decidir qué fuentes de información quiero "agregar". Supongamos que he localizado una web de la que me gustaría estar al tanto, sin necesidad de apuntarme a un boletín periódico. Tiene que ser una web que tenga una versión RSS del contenido, para que se entienda con mi agregador feedreader.

6. ¿Dónde está la versión RSS de una web? Por ejemplo, si miro en barbol.com, vemos abajo un enlace en el que leo sindicación (XML). Si pincho en él, me encontraré esto:

http://www.barbol.com/index.rdf

Eso es lo que necesito, esa URL, porque ésa la fuente (feed) con que voy a alimentar mi agregador.


7. ¿Cómo agrego una versión RSS de una web en mi agregador?

- Me copio la dirección http://www.barbol.com/index.rdf de ese archivo.
- Ahora me voy a feedreader, en mi ordenador. Abro la opción NEW y allí pego la dirección URL en cuestión.
- Lo bueno de feedreader es que, le da igual con qué versión de RSS trabaje, así que lo ponemos independientemente de la versión que use.

Bien, ahora ya puedes agregar todas las webs que creas interesantes y que tengan una versión en RDF / RSS. Si te lo preguntabas, Trucosdegoogle todavía no tiene, pero eso llegará pronto.

El problema que te plantearás enseguida es que muy pronto tendrás tantas webs agregadas que el volúmen de noticias irrelevantes que tendrás que descartar para encontrar las que realmente te interesan será cada vez mayor, incluso aunque agregues webs muy especializadas. Bueno, conozco dos formas de filtrar más esas fuentes de información, para que recibas información más y más específica y actualizada. Una es sindicando noticias de google.

Seguiremos. Primero aprende a usar feedreader y ya estarás preparado.


:: 5/14/2003 | enlace del articulo |

¿Te ha visitado ya el nuevo robot de Microsoft?

Microdoc news (excelente blog sobre buscadores, este tío no duerme o son varios, no para) ha. Ha detectado un nuevo robot que ha pasado por su servidor para indexarle los documentos contenidos en la web. Nada menos que la versión beta del robot de Microsoft.

Muchos diréis "¡horror! Bill Gates indexándome hasta los entresijos" pero en realidad yo diría que visto en global puede ser una buena noticia. ¿Por qué? Veamos:

- Como dice Fernando Siles( barbol.com), Google está empezando a extender demasiado sus alas. Si se convierte en el Gran Hermano (1984, brr, pelos de punta) empezará a tener detractores (ya los tiene) Así que no le viene mal un competidor fuerte, para que nuestros amigos de google no monopolicen el mercado de las búsquedas y sigan siendo vistos como el amigo de todos frente al que tiene la fama de monopolizador.

- Claro que, si microsoft copia o imita la tecnología y funcionalidades de google y se aprovecha de otras ventajas, puede realmente desbancar a google, como ya hizo con Apple,es una amenaza real. Microsoft tiene como ventajas añadidas que los usuarios del navegador Explorer que no saben usar bien la Red, teclean directamente la palabra a buscar en la cajetilla de "dirección", lo que les redirecciona al buscador de MSN, o que si pinchan en el icono "Buscar" del navegador, hace lo propio, o que si nos equivocamos al teclear una dirección, te puede redireccionar de nuevo al buscador. Situación complicada, sí señor...

- Pero más robots "grandes" indexando grandes volúmenes de información nos permite después abarcar más red todavía. Hay gente que piensa que yahoo=internet, o google=internet y hay mucho más que estos buscadores no muestran (aparte de la internet invisible) La competencia siempre es buena para el cliente final (o eso dicen)

- Para los especialistas en optimización también sería una buena noticia. Si todos se dedican a intentar preparar las páginas para engañar a google (lo que hacen ahora, la mayoría) el sistema se verá finalmente corrompido, google ya no será fiable como fuente de información, y se verá destruido por su propio éxito.

Algoritmos diferentes necesitarán estrategias de optimización de webs distintas; será más difícil engañar a los buscadores, y así, complementándose, harán el trabajo de los SEM más complejo. Pero, a la larga, no dañarán la boca que les da de comer.

En resumen, Veremos qué capacidad tiene Microsoft para:

-Indexar un volúmen de páginas web semejante o mayor que google.
-Manejar de forma tan eficiente ese volúmen de información. ¿Usarán Unix? ¿MSN rank? JAJAJAJAJA
-Generar esa confianza ciega que el usuario tiene en google (esa sensación de "I´m feeling Lucky")


:: 5/12/2003 | enlace del articulo |

Google compra Applied Semantics - ingeniería lingüística aplicada a la publicidad online

Acabo de llegar de vacaciones y ya estoy que no doy abasto. Sin tiempo os cuento que, según nota de prensa, Google ha comprado Applied Semantics, una compañía dedicada a utilizar tecnología lingüística para relacionar contenido y anuncios.

Ya habíamos visto algún ejemplo antes sobre el tema. Está claro que, para google, la estrategia es la contraria al resto del mundo: copar el mercado de publicidad online haciendola rentable desde 2001.

Applied Semantics no es la única de este estilo que han comprado, ya antes de la compra de blogger compraron otra. Como ellos mismos dicen, suelen comprar no sólo un software, o un mercado, sino más bien un equipo, el conocimiento y experiencias adquiridos por los integrantes de cada empresa absorbida.

Lo más interesante de esta coompra es su servicio Adsense, que usa su software patentado CIRCA Technology. Adsense usa ingeniería lingüística (como la usada en google para ayudarnos si tecleamos mal una palabra, "quiso decir ....")

Tiene debajo lo que llaman una ontología, una base de datos que contiene millones de conceptos y relaciones entre ellos. A partir de ahí, grosso modo, toma un texto de una página web, lo destripa, observa cuál es el "aboutness", es decir, de qué va la web, y cruza esos conceptos que describen el aboutness con los que están en su base de datos y quieren utilizar los clientes.

Así que, dos cuestiones:

1. Apuesta decidida por la publicidad relacionada semánticamente. ¿Y esto sólo se puede hacer con un software y una capacidad de proceso que te no veas?

2. La ingeniería lingüística parece que pasa del ámbito de entornos temáticos muy acotados (el control del vocabulario es costoso) a ámbitos generalistas. Sé de una enorme compañía española que renunció a esta tecnología por no verle utilidad a gran escala. Quizá ahora se lamenten.



Por qué todos los buscadores tienen búsqueda avanzada

No es última hora porque no me da la vida, pero analizando los últimos movimientos de los buscadores, me ha dado por deducir un detalle curioso. Veamos:

Ask Jeeves saca nueva versión de su buscador en "lenguaje natural".

Por otro lado, Alltheweb, recientemente comprado por Overture, sigue añadiendo nuevas características de búsqueda.

Además, siempre es mejor consultar fuentes autorizadas, como en esta entrevista con Tim Mayer, de FAST/Alltheweb.

Todos sacan nuevas versiones, KartOO va ya por la tercera, incoporando nuevas funciones.

Y digo yo: ¿no decía Nielsen que la mayoría de los usuarios no utilizan la búsqueda avanzada? Sin embargo, todos se esfuerzan en indexar más tipos de documentos, crear más filtros, e incluso crear buscadores especializados que en realidad no son más que un filtro (froogle, google news, unclesam, etc) ¿Por qué?

Un problema que han tenido siempre las búsquedas avanzadas ha sido la sintaxsis de búsqueda. Me refiero a que cada software tiene su propia forma de expresar mediante comandos u órdenes el filtro que queremos utilizar. Por ejemplo, para decir que quiero buscar historia pero NO de inglaterra, un operador booleano tradicional sería NOT. Si el software traduce al español los comandos, permitirá la expresión HISTORIA NO INGLATERRA. Google por ejemplo utiliza el signo - para realizar la misma operación (HISTORIA -INGLATERRA) y sin embargo permite escribir un operador booleano como OR (HISTORIA OR INGLATERRA) Aunque en general, los interfaces se diseñan de forma cada vez más intuitiva, sin comandos, sino con opciones. Quizá eso esté haciendo a las búsquedas avanzadas más fáciles de usar.

Si google está poco a poco estandarizando un interfaz de búsqueda simple, pues todos la copian, ¿convergerán en una todas las sintaxsis de búsqueda avanzada? Por ahora, sí que hay algo que parece plenamente impuesto de hecho: las comillas. No sé muy bien cómo, muchísima gente sabe que para buscar una expresión exacta, debe usar las comillas ("HISTORIA DE INGLATERRA")

Interesante...