AND
THE WINNER IS...

Presentamos los Premios
Allytech al Diseño
Web 2006 !!!
Si sos diseñador, webmaster o titular de una web, a partir
del 1° de octubre y hasta el 15 de noviembre podrás
postular tus sitios web y ganar importantes premios:
-1er. Premio una PC Bangho con monitor LCD
15" Samsung 540N
-2do. Premio Un monitor LCD 15" Samsung 540N
-3er. Premio Una impresora multifunción Hewlett Packard
PhotoSmart C3180
Además, del 4to. al 10mo. puesto menciones de honor con
una bonificación de $150 en el abono de hosting.
Muy pronto recibirás las bases y condiciones del concurso...
¡no te quedes afuera!
|
SI
SOS RESELLER DE ALLYTECH... PREPARATE !

En octubre vuelven los desayunos de trabajo!
Te
presentaremos, entre otras cosas:
- Como vender por Internet validando tarjetas de crédito
online
- WebShop: te mostramos todos los secretos para armar tu propio
carrito de compras y vender soluciones de e-commerce llave en
mano.
- Te mostramos como montar una Radio Online
- Como tener tu propio Portal de Registro de dominios .com
- Nuevas funciones en el panel de distribuidores
Muy pronto recibirás
la invitación a los desayunos 2006 de Allytech.
|
TUTORIAL
DE ROBOTS.TXT: PARA QUÉ SIRVE Y CÓMO SE USA
Existen visitantes
no deseados a los sitios web. No hablamos de seres humanos
sino de programas que recorren la red acumulando información
a costa de nuestro ancho de banda y de nuestra privacidad; a
estos bichos los llamamos crawlers. Los hay buenos y
malos: Googlebot, por ejemplo, lee las páginas para que
puedan ser encontradas en Google, al igual que cualquier buscador.
Pero otros... no se sabe muy bien a qué vienen.
Desde los principios de la Internet se llegó a
un consenso en cómo dar reglas a estos robots, dado que
mucha gente no quiere que la totalidad o algunas partes de su
web sean indexados por buscadores. Para eso está el robots.txt,
que es un fichero que contiene las normas de "buena educación" que
deben seguir los crawlers. Es como las señales
de tránsito que prohiben o habilitan el paso a las páginas;
veamos cómo funciona este código de circulación.
Para empezar hay que crear un fichero de texto llamado robots.txt y
colocarlo en el document
root, es decir, en el primer
directorio del dominio. Imaginemos que nuestra web se llama www.mi-dominio.com.
Pues colocaremos el robots.txt de manera que sea visible en http://www.mi-dominio.com/robots.txt.
El formato de este fichero consiste en registros. Cada registro empieza por el
nombre de un user-agent , dos puntos y una o varias líneas con
el comando Disallow .
¡Atención! Hay que crear el robots.txt
en modo Unix porque sino puede dar problemas. Hay muchos editores que permiten
usar modo Unix en Windows, no se debe usar editores HTML o el Word.
El user-agent es el agente que nos visita (no, no es la policía;
al menos no es probable). Agente se refiere al tipo de programa que nos visita,
o al menos a cómo se identifica ese programa. Para especificar
todos los agentes usamos un asterisco (*).
Ejemplo: si se quiere prohibir que entre cualquier tipo de crawler, da igual
de dónde venga (de Google, de Yahoo, de la Universidad de Yale, etc...).
User-agent: *
Disallow: /
Es decir, esto indica "Seas el crawler que seas, sabé que no podés pasar
a ninguna parte".
Si queremos dejar acceso libre a todos los crawler (si no se pone robots.txt
es lo que se sobreentiende) se pondría:
User-agent: *
Disallow:
Es decir, "Seas el crawler que seas, sabá que podés mirar por donde quieras".
Ahora por ejemplo vamos a prohibir que los crawlers visiten nuestras imágenes
y los cgi:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Otro ejemplo: le prohibimos a Googlebot que visite la página /productos.html
:
User-agent: Googlebot
Disallow: productos.html
Así, en un robots.txt se pueden almacenar distintos registros (reglas)
una tras otra para completar nuestra política de crawlers. Por ejemplo,
el siguiente robots.txt:
User-agent: *
Disallow: /cgi-bin
User-agent: Feedster
Disallow: /feed.xml
Disallow: /feed-noticias.xml
Esto significa: "En general los crawlers pueden ver todo menos el directorio
/cgi-bin/ y su contenido, y además en concreto Feedster no puede ver /feed.xml
y /feed-noticias.xml.
Los crawlers standard (es decir, los buenos) seguirán obedientemente las
indicaciones del robots.txt (lo leerán antes para saber qué pueden
visitar). Existen sin embargo otros crawlers no standard o maliciosos que se
dedican a saltarse los robots.txt. Por ejemplo, hay crawlers que recorren internet
de link en link buscando direcciones de e-mail, anotándolas y siguiendo.
Evidentemente esto no es legal, por lo que si de hecho están tomando e-mails
para hacer SPAM...¿para
qué iban a seguir las reglas?
Pero bueno, para los crawlers normales sirve.
|