Sitio de raspador

Ir a: navegación, búsqueda de

A sitio de raspador es un sitio web copia el contenido de otros sitios web usando Web scraping. El propósito de crear un sitio tan se pueden recoger los ingresos publicitarios o manipular buscar posicionamiento al vincular a otros sitios para mejorar su ranking del motor de búsqueda.

En los últimos años[¿Cuándo?] sitios de raspador han proliferado a una alta tasa de motores de búsqueda "spamming". Contenido abierto es una fuente común de material para sitios de raspador.

A motor de búsqueda No es un sitio de raspador; sitios como Yahoo y Google reúnen contenido de otros sitios web e indexarla por lo que el índice puede ser buscado con palabras clave. Motores de búsqueda y luego Mostrar fragmentos del contenido del sitio original en respuesta a la búsqueda de un usuario.

Contenido

  • 1 Hechas para publicidad
  • 2 Legalidad
  • 3 Técnicas
    • 3.1 Secuestro del dominio
  • 4 Véase también
  • 5 Referencias

Hechas para publicidad

Algunos sitios de raspador se crean para ganar dinero mediante el uso de programas de publicidad. En tal caso, se llaman Hecho para AdSense sitios o MFA. Este término despectivo se refiere a sitios web que no tiene ningún valor redentor excepto que atraer a los visitantes de la web con el único propósito de hacer clic en los anuncios.[1]

Hecho para AdSense sitios son considerados sitios que son motores de búsqueda "spamming" y diluir los resultados de la búsqueda proporcionando los surfistas con resultados menos satisfactorios. El contenido rascado se considera redundante por la población a la que se mostrarán por el motor de búsqueda en circunstancias normales, no había sido ningún sitio web MFA encontrados en los listados.

Legalidad

Sitios de raspador pueden violar derecho de autor. Incluso teniendo contenido desde un contenido abierto el sitio puede ser un violación de derechos de autor, si se hace de una manera que no respeta la licencia. Por ejemplo, la Licencia de documentación libre de GNU (GFDL)[2] y Creative Commons ShareAlike (CC-BY-SA)[3] licencias, utilizadas en la Copro,[4] requieren que un republicador informar a los lectores de las condiciones de la licencia y dar crédito al autor original.

Técnicas

Dependiendo del objetivo de un raspador, difieren los métodos en los que se dirigen sitios Web. Por ejemplo, sitios con masa cantidades de contenido tales como aerolíneas, electrónica de consumo, almacenes, etc. pueden orientarse rutinariamente por su competencia con frecuencia para mantenerse al tanto de información sobre precios. Actividad raspa sofisticada puede ser camuflado utilizando varias direcciones IP y acciones de búsqueda de la sincronización así no proceden a velocidades de robótica y en cambio son más humana como.

Algunos raspadores jalará fragmentos y el texto de los sitios web rango alto para las palabras clave que se han dirigido. De esta manera esperan altamente en la fila la páginas de resultados del motor de búsqueda (SERPs). RSS los feeds son vulnerables a los raspadores.

Algunos sitios de raspador consisten en los anuncios y los párrafos de las palabras seleccionadas al azar de un diccionario. A menudo un visitante hará clic sobre un Pay-per-click anuncio porque es sólo comprensible el texto en la página. Los operadores de estos sitios de raspador beneficiarse financieramente estos clics. Redes de publicidad afirman estar trabajando constantemente para quitar estos sitios de sus programas, aunque hay una activa polémica sobre esto, ya que estas redes se benefician directamente de los clicks generados en este tipo de sitio. Desde la perspectiva de los anunciantes, las redes no parecen estar haciendo suficiente esfuerzo para acabar con este problema.

Raspadores tienden a ser asociados con granjas de enlace y a veces son percibidos como la misma cosa, cuando varios raspadores vinculan al mismo sitio de destino. Un sitio de víctima frecuente destino podría ser acusado de participación enlace-granja, debido al patrón artificial de enlaces entrantes a un sitio web de la víctima, vinculado desde múltiples sitios de raspador.

Secuestro del dominio

Artículo principal: Secuestro del dominio

Algunos spammers que crean sitios raspador pueden secuestrar un nombre de dominio expirado recientemente. Ello permitirá que los spammers utilizan la ya establecida rankings de búsqueda para el nombre de dominio y enlaces entrantes. Incluso pueden probar con algunos spammers para que coincida con el tema del sitio caducado, a utilizar sus rankings de búsqueda para las palabras clave.[citación necesitada] Por ejemplo, un sitio web vencida para un fotógrafo puede ser secuestrada por un spammer que generaría un sitio raspador sobre consejos de fotografía.

Véase también

  • Contacta con raspado
  • Parking de dominios
  • Web scraping

Referencias

  1. ^ Hecho para AdSense
  2. ^ "Texto de la licencia de documentación libre GNU".
  3. ^ "Creative Commons Attribution-ShareAlike 3.0 Unported License".
  4. ^ "Reutilización de contenido de Copro".

Otras Páginas

Obtenido de"https://en.copro.org/w/index.php?title=Scraper_site&oldid=645705743"