Tecnologia y Mas by franklin ortiz: Qué es un buscador

Optimización para buscadores amplía alcance de sitios en la red
Además de los esfuerzos publicitarios requeridos para dar a conocer a un público específico la existencia de un sitio de Internet, es necesario que los desarrolladores comprendan la mecánica con la que operan las herramientas de búsqueda
Muchas páginas de internet son actualizadas frecuentemente, lo que obliga a decenas de motores de búsqueda a visitarlos periódicamente.

Debido al tamaño de la red por la cantidad de sitios que existen y que se crean todos los días en el mundo, los motores de búsqueda han cobrado cada vez mayor importancia como herramienta para que los usuarios lleguen a los servicios e información adecuada a sus intereses.
Además de los esfuerzos publicitarios requeridos para dar a conocer a un público específico la existencia de un sitio de Internet, es necesario que los desarrolladores comprendan la mecánica con la que operan las herramientas de búsqueda para dirigir tráfico a un sitio específico sin la necesidad de realizar grandes inversiones en publicidad.

Los motores de búsqueda son sistemas de recuperación de información diseñados para minimizar el tiempo requerido para encontrar información, así como la cantidad de sitios que deben ser consultados para ubicar los contenidos deseados entre los miles de sistemas que conforman la red informática mundial.

Qué es un buscador

Un buscador de Internet o motor de búsqueda es un sistema de recuperación de información en los sistemas conectados a la red mundial de Internet.

Los motores de búsqueda permiten solicitar contenidos que cumplen con criterios específicos, que típicamente están contenidos en una palabra o frase dadas, y regresa al usuario una lista de contenidos que empatan con esos criterios.

Esta lista normalmente está ordenada con respecto a alguna medición de la relevancia de los resultados. Los motores de búsqueda usan regularmente índices actualizados para operar de manera rápida y eficiente.

Los motores de búsqueda se diferencian de los Directorios Web, ya que éstos últimos son mantenidos por editores, y los primeros operan con algoritmos o son una combinación de algoritmos y decisiones humanas.

Buscadores líderes

Google

Google comenzó a tener gran prominencia a partir de 2001. Su éxito se basa en parte en el concepto de popularidad de enlaces y su PageRank.

El número de sitios y páginas que se ligan con una página web específica es tomado en cuenta mediante la clasificación PageRank, bajo la premisa de que los sitios buenos y deseables tienen más vínculos desde otros sitios.

El PageRank de páginas vinculadas y el número de vínculos en tales páginas contribuyen al PageRank de la página en cuestión.

Google y el resto de los motores de búsqueda no sólo usan el PageRank, sino más de 150 criterios para determinar la relevancia de un sitio.

El algoritmo “recuerda” los sitios donde ha estado e indexa el número de vínculos cruzados, relacionando a éstos en grupos.

Yahoo! Search

Yahoo tiene su propio motor de búsqueda basado en la combinación de tecnologías, resultado de su adquisición de otros buscadores como Inktomi, Overture, AlltheWeb y AltaVista. Este buscador privilegia los resultados de su motor de búsqueda sobre los resultados arrojados por su Directorio Web.

Microsoft

Es el más joven de los principales motores de búsqueda. Anteriormente basaba sus resultados de búsqueda en Inktomi (ahora propiedad de Yahoo), pero a partir de 2006 migró sus búsquedas a una nueva plataforma, WindowsLiveSearch, con lo que retiró el nombre MSN Search.

Cómo trabajan los motores de búsqueda

Los motores de búsqueda operan con el siguiente orden de acciones:

1. Web Crawling (arañas)

2. Creación de índices

3. Resultados de la búsqueda

Los motores de búsqueda trabajan a través del almacenamiento de información sobre un gran número de páginas web, que son obtenidas de la propia red.

Estas páginas son recuperadas por un Web Crawler (algunas veces llamados arañas), que son navegadores automatizados que siguen cada vínculo que encuentran en un sitio dado.

Los contenidos de cada página son analizados para determinar cómo debe ser indexada (por ejemplo, se obtienen palabras de los títulos, encabezados o espacios especiales llamados meta tags). La información sobre las páginas son almacenadas en una base de datos para su uso en búsquedas posteriores.

Algunos motores de búsqueda como Google almacenan todo o parte de una página fuente (a lo que le llama Caché), así como información sobre las páginas. En tanto, otros buscadores almacenan cada palabra de todas las páginas que encuentran.

Cuando un usuario realiza una búsqueda, normalmente tecleando palabras clave, el motor busca en su índice y provee una lista de las páginas que mejor empatan con los criterios, normalmente con un sumario corto que contiene el título del documento y algunas veces parte de su texto.

La mayor parte de los motores de búsqueda usan los términos booleanos AND, OR y NOT para hacer rastreos más específicos. Una característica avanzada de los buscadores es la proximidad, que permite a los usuarios definir la distancia entre las palabras clave.

Las tecnologías de búsqueda actuales podrían cambiar en el futuro de acuerdo con el desarrollo de Internet.

Muchos motores de búsqueda son empresas comerciales financiadas por ingresos por publicidad, como resultado algunas emplean la práctica controversial de permitir a sus anunciantes pagar dinero para aparecer en los primeros resultados de búsqueda.

La mayoría de los motores de búsqueda son operados por compañías privadas que usan algoritmos propios y bases de datos cerradas.

El proceso de creación de índices se refiere a la manera en que la información obtenida por las arañas es almacenada para facilitar su recuperación de manera rápida y precisa.

El diseño de índices incorpora conceptos interdisciplinarios de lingüística, psicología cognitiva, matemáticas, informática, física y computación.

Los buscadores populares se enfocan en el indexado del texto completo de documentos redactados en lenguaje humano en internet, aunque existen otros tipos de archivos que pueden ser buscados como son video, audio y gráficos.

Meta Elementos
Los Meta Elementos son componentes HTML usados para proveer datos estructurados sobre una página web. Esos elementos son colocados como etiquetas (tags) en la sección "head" del documento HTML.

Las páginas web pueden contar con este tipo de información oculta que indica a los buscadores quién es el autor, palabras clave, descripción del documento y lenguaje.

Para las páginas HTML, la meta tag contiene palabras clave que también son incluidas en los índices creados por los buscadores.

Los meta elementos proveen información sobre una página dada y ayudan a los buscadores a categorizarlas correctamente. Estos elementos son insertados en el documento HTML, pero no son directamente visibles por el usuario cuando visita el sitio.

Estos elementos son el foco de un área de la mercadotecnia conocida como Optimización para Motores de Búsqueda (Search Engine Optimization, SEO), a través del cual se usan diversos métodos para dotar al sitio de un usuario de una clasificación más alta en los buscadores.

Los meta elementos tienen menor incidencia en los resultados de búsqueda hoy en día que a mediados de la década pasada, debido a que las arañas o robots de los buscadores se han vuelto más sofisticados y otorgan mayor importancia a las páginas externas que se vinculan con el sitio, la cantidad y calidad del contenido, la precisión técnica del código fuente, la cantidad de vínculos funcionales, el volumen y consistencia de búsquedas o tráfico, el tiempo promedio de visita, número de páginas vistas, nuevas sesiones, tasas click-through, geografía, lenguaje, y otras características intrínsecas.

Keywords
Una palabra clave en las búsquedas de internet es usada para encontrar páginas coincidentes en la red. Se popularizaron durante los primeros años del desarrollo de los buscadores debido a que no era posible realizar preguntas en “lenguaje natural” para encontrar los sitios deseados.

Las búsquedas eran más eficientes al proporcionar sólo algunas palabras clave. Estas palabras capturaban la esencia del tema en cuestión y aparecían destacadas en la lista de resultados del motor de búsqueda.

Las palabras clave son utilizadas aún. Muchos buscadores modernos emplean métodos para determinar cuáles palabras en una instrucción de búsqueda son importantes y, por tanto, deben ser tratadas como keywords.

Las palabras más comunes como los artículos (un, una, el, la, los) y las conjunciones (y, o, pero) no son tratadas como palabras clave y son ignoradas por los buscadores, con el propósito de reducir los resultados de búsqueda.

Una lista de palabras hispanas ignoradas por buscadores puede ser consultada en el siguiente URL.

Prácticas prohibidas: Keyword stuffing
Ésta es considerada una práctica sin ética de las técnicas de Optimización para Motores de Búsqueda (SEO). Este procedimiento consiste en la utilización repetitiva o engañosa de palabras clave en los meta elementos o en el contenido.

Estos procedimientos pueden ser usados para obtener un mayor ranking y visibilidad para frases particulares en los motores de búsqueda. Una palabra que es repetida muchas veces puede ser detectada por los buscadores; en particular, se sabe que Google expulsa de sus índices a los sitios que emplean esta técnica y reduce significativamente el ranking de los sitios que recurren a ella.

Igualmente es considerado Keyword Stuffing la inserción como metaelementos de palabras clave que son buscadas con frecuencia (como la palabra sexo), aún cuando esa palabra tenga poca conexión con el contenido de una página, con el fin de atraer tráfico de manera engañosa.

La elección de palabras como Metatags debe ser determinada con el fin de beneficiar a los usuarios al hacer más eficientes las búsquedas de páginas relevantes, y jamás como un medio de engaño para aumentar el tráfico web.

Retos para los motores de búsqueda
Internet está creciendo más rápido de lo que cualquier tecnología actual de motores de búsqueda puede indexar.

Muchas páginas de internet son actualizadas frecuentemente, lo que obliga a los motores de búsqueda a visitarlos periódicamente.

Las búsquedas que se realizan actualmente están limitadas a la búsqueda de palabras clave, lo que puede resultar en muchos resultados falsos.

Los sitios generados de manera dinámica pueden ser lentos o difíciles de indexar por los buscadores. Muchos sitios generados de manera dinámica no pueden ser indexados por motores de búsqueda. Este fenómeno es conocido como la Red Invisible.

Algunos motores de búsqueda no clasifican sus resultados con respecto a la relevancia, sino por la cantidad de dinero invertido en publicidad.

Google, al rescate de la liquidez publicitaria en Internet

En los años 90 era muy difícil obtener alguna clase de compensación por el desarrollo de contenidos y su publicación en Internet. Quizá esa sea una de las causas que provocaron la alta presencia de spam y pornografía.

Uno de los problemas de los banners es su poca capacidad de llegar a públicos altamente segmentados, lo que explica que las tasas clickthrough sean tan bajas. Esta podría ser una de las razones por las que las tasas de publicidad en internet que habían sido razonablemente altas en los 90 cayeran a niveles que ni siquiera sitios muy populares pudieran obtener rentabilidad de sus espacios publicitarios en esta década.

Sin embargo, la publicidad segmentada lanzada por los anuncios de texto de Google cambiaron el panorama.

Los anuncios de Google no son imágenes, sino textos que resultan menos molestos para los lectores.

Con Adsense, un programa de distribución de anuncios, los propietarios de cualquier sitio tienen la posibilidad de asociarse con el gigante de las búsquedas en internet para permitir el despliegue de textos, imágenes y más recientemente video para fines publicitarios.

Estos anuncios son administrados por Google y generalmente generan ingresos ya sea bajo los modelos de Costo Por Clic o bien por el de Costo por Millar de impresiones. Además Google comenzó a utilizar un sistema de Costo Por Acción.

Google utiliza su tecnología de búsqueda para distribuir anuncios basados en el contenido de un sitio, la localización geográfica del usuario y otros factores.

Los anunciantes interesados en promoverse mediante esta tecnología de segmentación de Google pueden hacerlo a través del sistema AdWords.

AdSense se ha convertido en un método popular para la publicación de publicidad en sitios web debido a que los mensajes de texto son menos intrusivos que los banners, y el contenido de los anuncios es la mayor parte de las veces relevante para los intereses del lector.

El sistema utiliza un código JavaScript para incorporar los anuncios en un sitio web participante. Cuando el sitio en cuestión no ha sido explorado por el Mediabot, el sistema despliega anuncios de causas benéficas, conocidas como Anuncios de Servicio Público.

El Mediabot es un robot o araña diferente al Googlebot que mantiene los índices de búsqueda de Google.

Hay tres maneras de monetizar un sitio mediante el sistema Adsense de Google:

1. Técnicas de generación de tráfico incluyendo la publicidad en línea. 2. La publicación de contenido de valor que atraiga los anuncios de AdSense, los cuales generan ingreso cuando son activados 3. Uso de frases que invitan a hacer clic en los anuncios, aunque Google prohíbe expresamente a los editores asociados a utilizar frases como “De clic en los anuncios”.

El origen de los recursos de AdSense es el programa AdWords, que en cambio tiene un complejo modelo de precios basado en una subasta Vickrey, en la cual el anunciante debe presentar una oferta sellada que no puede ser observada por los competidores. El ganador de la subasta es quien presenta la mayor oferta, pero el precio a pagar es el correspondiente a la segunda oferta más alta.

Historia

La historia detrás de AdSense se originó de WordNet y Simpli, una empresa fundada por George A. Millar, y varios profesores y egresados de la Universidad de Brown.

La tecnología se basa en búsquedas semánticas que fueron aplicadas por primera vez por la empresa Oingo, formada en Santa Monica, California, en 1998. La empresa cambió su nombre a Applied Semantics, la cual fue adquirida por Google por 102 millones de dólares en abril del 2003, para reemplazar un sistema similar desarrollado de manera interna.

En mayo de 2005, Google presentó su servcio AdSense para feeds, una versión de su sistema publicitario que corre con sistemas de sindicación RSS y Atom que tienen más de 100 suscriptores activos.

Según el Blog oficial de Google “los anunciantes colocan sus anuncios en los artículos sindicados más apropiados, los editores reciben retribuciones por su contenido original, y los lectores encuentran publicidad relevante”.

El sistema AdSense para búsquedas permite a los editores colocar cajas de búsqueda de Google en sus páginas.

Cuando un usuario busca en la red o en el sitio mediante el buscador instalado, Google comparte parte de sus ingresos obtenidos con esa búsqueda con el propietario del sitio que hospeda la publicidad en caso de que los anuncios desplegados en los resultados de búsqueda tengan un clic.

Cada vez que un usuario visita una página con etiquetas de AdSense, un código JavaScrit escribe una etiqueta iframe, cuyos atributos incluyen el URL de la página. Una etiqueta iframe (inline frame) es un elemento HTML que hace posible integrar otro documento HTML dentro del documento principal.

Los servidores de Google usan un caché de la página para el URL o las palabras de la misma URL para determinar una serie de palabras clave de alto valor. Si las palabras clave han sido registradas, los servidores envían anuncios relacionados con tales palabras con base en el sistema de subastas de AdWords.

Pago

Las condiciones de pago para los clients de AdSense tiene algunas desventajas para los editores, debido a que Google retiene los pagos hasta que la cuenta del cliente suma 100 dólares, pero muchos sitios necesitan mucho tiempo, en algunos casos años, para obtener este nivel de ingresos mediante AdSense.

Estos pagos pendientes son registrados en la contabilidad de Google como “reparto de utilidades retenido”.

Al cierre del año fiscal del 2006, la suma de estas pequeñas deudas ascendió a más de 370 millones de dólares, dinero que Google puede invertir, pero que en los hechos pertenece a sus clientes.

Tecnologia y Mas by franklin ortiz

sábado, diciembre 22, 2007

Qué es un buscador

No hay comentarios: