Si bien no hay nada que impida que una determinada persona extraiga contenido disponible públicamente, puede hacer algunas cosas básicas para mitigar las preocupaciones del cliente:
-
Límite de velocidad por cuenta de usuario, dirección IP, agente de usuario, etc.:esto significa que restringe la cantidad de datos que un grupo de usuarios en particular puede descargar en un período de tiempo determinado. Si detecta que se transfiere una gran cantidad de datos, cierra la cuenta o la dirección IP.
-
Requerir JavaScript:para garantizar que el cliente se parezca a un navegador interactivo, en lugar de una araña básica...
-
RIA:haga que sus datos estén disponibles a través de una interfaz de aplicación de Internet enriquecida. Las cuadrículas basadas en JavaScript incluyen ExtJs, YUI, Dojo, etc. Los entornos más ricos incluyen Flash y Silverlight como 1kevgriff menciona .
-
Codificar datos como imágenes. Esto es bastante intrusivo para los usuarios habituales, pero podría codificar algunas de sus tablas de datos o valores como imágenes en lugar de texto, lo que derrotaría a la mayoría de los analizadores de texto, pero no es infalible, por supuesto.
-
robots.txt:para denegar arañas web obvias, agentes de usuarios de robots conocidos.
Agente de usuario:*
No permitir://P>
-
Utilice metaetiquetas de robots. Esto dejaría de conformar arañas. Esto evitará que Google lo indexe, por ejemplo:
Hay diferentes niveles de disuasión y la primera opción es probablemente la menos intrusiva.