Screaming Frog

Contenido

Screaming Frog SEO Spider es una de las herramientas SEO que toda persona cuyo intereses sea las páginas webs y como optimizarlas debe conocer.

Con este herramienta vas a poder rastrear todas y cada una de las URLs de un dominio para comprobar cualquier tipo de error. ¿Quieres que tu página web esté perfecta y optimizada al 100%?  Pues sigue leyendo este artículo que hemos preparado especialmente para ti.

En este enlace te dejo la página oficial de screaming frog para que puedas descargarte una versión gratuita.

¿Que es y para que sirve Screaming Frog Spider?

Screaming Frog es una herramienta SEO que nos va a permitir rastrear toda una página web como si se tratara de una auténtica rana espía. De esta manera vamos a poder obtener un informe de los enlaces, archivos código HTLM, PHP, CSS y todo tipo de información muy valiosa para que podamos hacer una auditoría SEO.

La información que nos va a proporcionar es muy útil, ya que vamos a poder entender porqué se producen algunos errores en nuestra página y vamos a poder solucionarlo. Si, es una tarea que se puede realizar a mano, pero es bastante tediosa, ya que si tenemos que revisar uno a uno archivos de código, imágenes y enlaces, puede que tardemos mucho tiempo. Y esta es la gran utilidad de esta herramienta. Realiza estas funciones en un periodo corto de tiempo.

Lo interesante de Screaming Frog es que no es la típica herramienta SEO, ya que no es online. Es una aplicación de escritorio y está disponible tanto para Windows, Mac y Linux. Vas a poder tener a tu propia rana!

¿Cuales son las funcionalidades de Screaming Frog?

Esta rana espía simula el comportamiento de Googlebot. Por este motivo cuando uses la aplicación para rastreo de URLs te va a devolver un diagnóstico de tu SEO On Page. Este diagnóstico nos va a decir si en la web analizada hay algún tipo de conflicto como pueden ser problemas de indexación, enlaces rotos (404), falta de las etiquetas en imágenes…

En cuestión de muy poco tiempo vas a obtener una información muy útil, toda ella bien ordenada para que la puedas analizar de una manera eficaz.

¿Cómo usar Screaming Frogg?

Bien, vamos a lío. En esta guía de uso voy a explicar todo lo que puedes hacer con Screaming Frog, para que puedas exprimir al máximo esta herramienta SEO.

Para empezar, simplemente debes elegir lo que deseas hacer:

Crawling básico

Como rastrear una página web entera

Cuando se inicia un rastreo, es una buena idea tomarse un momento y evaluar qué tipo de información se busca, qué tamaño tiene el sitio y qué cantidad del mismo se necesita rastrear para acceder a todo. A veces, con sitios más grandes, es mejor restringir el rastreador a una subsección de URL para obtener una buena muestra representativa de los datos. Esto hace que el tamaño de los archivos y las exportaciones de datos sean un poco más manejables. A continuación, repasamos esto con más detalle. Para rastrear todo su sitio, incluidos todos los subdominios, deberá realizar algunos ajustes ligeros en la configuración de la araña para poder empezar.

De manera predeterminada, Screaming Frog sólo rastrea el subdominio en el que ingresas. Cualquier subdominio adicional que la araña encuentre será visto como un enlace externo. Para poder rastrear subdominios adicionales, debes cambiar los ajustes en el menú Configuración de la araña. Al marcar la casilla “Rastrear todos los subdominios”, se asegurará de que la araña rastree todos los enlaces que encuentre hacia otros subdominios de su sitio.

Cuando tenemos un dominio a analizar debemos configurar la herramienta para indicarle que información queremos que extraiga: Para ello vamos a Configuration: Spider

Debes tener en cuenta que si quieres rastrear un subdominio, debes marcar la casilla “Crawl All Subdomains” antes de iniciar el rastreo.

Además, si estás empezando a rastrear desde una subcarpeta o subdirectorio específico y aún quieres que Screaming Frog  rastree todo el sitio, marca la casilla “Crawl Outside of Start Folder.”

De forma predeterminada, la araña de SEO sólo está configurada para rastrear la subcarpeta o subdirectorio desde el que se rastrea. Si desea rastrear todo el sitio y comenzar desde un subdirectorio específico, asegúrese de que la configuración esté configurada para rastrear fuera de la carpeta de inicio.

Para ahorrar tiempo y espacio en el disco, ten en cuenta los recursos que puedes no necesitar en su rastreo. Los sitios web enlazan con mucho más que sólo páginas. Desactiva los recursos de imágenes, CSS, JavaScript y SWF para reducir el tamaño del rastreo.

Como rastrear un conjunto específico de subdominios o subdirectorios

Si desea limitar su rastreo a un conjunto específico de subdominios o subdirectorios, puede utilizar RegEx para establecer esas reglas en los parámetros Incluir o Excluir del menú Configuración.

Paso 1:

Ves a Configuración > Excluir; utilice una expresión regular con comodín para identificar las URL o los parámetros que desea excluir.

Paso 2:

Pruebe su expresión regular para asegurarse de que está excluyendo las páginas que esperaba excluir antes de comenzar su rastreo:

Quiero una lista de todas las páginas de mi sitio

Por defecto, la Screaming Frog está configurada para rastrear todas las imágenes, JavaScript, CSS y archivos flash que la araña encuentre. Para rastrear sólo HTML, tendrás que deseleccionar “Revisar imágenes”, “Revisar CSS”, “Revisar JavaScript” y “Revisar SWF” en el menú de configuración de la araña.

Screaming Frog

Ejecutar la araña con estos ajustes sin marcar te van a proporcionar, una lista de todas las páginas de tu sitio que tienen enlaces internos que apuntan a ellas.

Una vez finalizado el rastreo, vaya a la pestaña “Internal” y filtra los resultados por “HTML”. Haz clic en “Exportar” y tendrás la lista completa en formato CSV.

Quiero una lista de todas las páginas de un subdirectorio específico

Además de deseleccionar “Check Images’, ‘Check CSS’, ‘Check JavaScript’ and ‘Check SWF’, deberás seleccionar ‘Check Links Outside Folder’” en la configuración de la araña. Si ejecutas la araña con estos ajustes desmarcados, vas a obtener una lista de todas las páginas de su carpeta de inicio (siempre que no sean páginas huérfanas).

Cómo encontrar todos los subdominios de un sitio y verificar los enlaces internos.

Puedes usar Screaming Frog para identificar todos los subdominios de un sitio determinado. Navega a Configuración > Spider, y asegúrese de que “Crawl All Subdomains” esté seleccionado. Al igual que el rastreo de todo el sitio que aparece arriba, esto ayudará a rastrear cualquier subdominio al que esté vinculado dentro del rastreo del sitio. Sin embargo, no va a encontrar subdominios que sean huérfanos o que no estén vinculados.

Cómo rastrear un sitio que requiere cookies

Aunque los robots de búsqueda no aceptan cookies, si estás rastreando un sitio y necesitas permitir las cookies, simplemente selecciona “Allow Cookies” en la pestaña “Advanced” del menú de configuración de la araña.

Cómo rastrear usando un agente de usuario diferente

Para rastrear usando un agente de usuario diferente, selecciona “User-Agent” en el menú “Configuration”, luego selecciona un robot de búsqueda en el menú desplegable o escriba las cadenas del agente de usuario que desee.

Dado que Google es ahora una herramienta para móviles, intenta rastrear el sitio como Googlebot Smartphone, o modifica el User-Agent para que sea una imitación de Googlebot Smartphone. Esto es importante por dos razones diferentes:

1.- Rastrear el sitio imitando el agente de usuario de Googlebot para Smartphones puede ayudar a determinar cualquier problema que tenga Google al rastrear y mostrar el contenido de su sitio.

2.- El uso de una versión modificada del agente de usuario de Googlebot para Smartphones le ayudará a distinguir entre sus rastreos y los de Google al analizar los registros del servidor.

Cómo rastrear las páginas que requieren autenticación

Cuando la araña Screaming Frog se encuentra con una página protegida por contraseña, aparece un cuadro emergente en el que puede introducir el nombre de usuario y la contraseña necesarios.

La autenticación basada en formularios es una característica muy poderosa y puede requerir la representación de JavaScript para funcionar eficazmente.

Nota: La autenticación basada en formularios debe ser utilizada con moderación, y sólo por usuarios avanzados. El rastreador está programado para hacer clic en cada enlace de una página, por lo que podría resultar en enlaces para cerrar la sesión, crear mensajes, o incluso eliminar datos.

Para administrar la autenticación, navegue a Configuración > Authentication.

Para desactivar las solicitudes de autenticación, desmarca la casilla “Allow standards based authentication”.

Enlaces internos

Información sobre todos los enlaces internos y externos de mi sitio (anchor text, directivas, enlaces por página, etc.)

Si no necesita revisar las imágenes, JavaScript, flash o CSS del sitio, desmarca estas opciones en el menú de Configuración de la Araña para ahorrar tiempo de procesamiento y memoria.

screaming frog

Una vez que la araña haya terminado de rastrear, usa el menú “Bulk Export” en masa para exportar un CSV de ‘All links’. Esto le proporcionará todas las ubicaciones de los enlaces, así como el correspondiente texto ancla, directivas, etc.

Todos los enlaces pueden ser un gran reporte. Ten en cuenta esto al exportar. Para un sitio grande, esta exportación a veces puede tardar minutos en ejecutarse.

Para un recuento rápido del número de enlaces en cada página, vaya a la pestaña “Internal” y ordena por “Enlaces”. Todo lo que esté por encima de 100, podría necesitar ser revisado.

Cómo encontrar enlaces internos rotos en una página o sitio

Una vez que la araña haya terminado de rastrear, ordena los resultados de la pestaña ‘Internal’ por ‘Status Code’. Cualquier 404, 301 u otro código de estado será fácilmente visible.

Al hacer clic en cualquier URL individual de los resultados del rastreo, verás que la información cambia en la ventana inferior del programa. Al hacer clic en la pestaña “En los enlaces” de la ventana inferior, encontrarás una lista de páginas que se enlazan con el URL seleccionado, así como el texto de anclaje y las directivas utilizadas en esos enlaces. Puede utilizar esta función para identificar las páginas en las que es necesario actualizar los enlaces internos.

Para exportar la lista completa de páginas que incluyen enlaces rotos o redirigidos, elija ‘Redirection (3xx) in links’ o ‘Client Error (4xx) in links’ o ‘Server Error (5xx) in links’ en el menú ‘Advanced Export’, y obtendrá una exportación CSV de los datos.

Para exportar la lista completa de páginas que incluyen enlaces rotos o redirigidos, visita el menú “Bulk export”. Desplázate  hacia abajo hasta los códigos de respuesta, y mira los siguientes informes:

  • No Response Inlinks
  • Redirection (3xx) Inlinks
  • Redirection (JavaScript) Inlinks
  • Redirection (Meta Refresh) Inlinks
  • Client Error (4xx) Inlinks
  • Server Error (5xx) Inlinks

La revisión de todos estos informes debería darnos una representación adecuada de qué enlaces internos deberían ser actualizados para asegurar que apuntan a la versión canónica del URL y distribuir eficientemente la equidad de los enlaces.

Cómo encontrar enlaces salientes rotos en una página o sitio (o todos los enlaces salientes en general)

Después de deseleccionar “Check Images”, “Check CSS”, “Check JavaScript” y “Check SWF” en la configuración de Screaming Frog, asegúrate de que “Check External Links” permanezca seleccionado.

Una vez que la Screaming Frog termine de rastrear, haz clic en la pestaña ‘External’ en la ventana superior, ordena por ‘Status Code’ y podrás encontrar fácilmente URLs con códigos de estado distintos a 200. Al hacer clic en cualquier URL individual de los resultados del rastreo y luego en la pestaña “In Links” de la ventana inferior, encontrarás una lista de páginas que apuntan a la URL seleccionada. Puedes utilizar esta función para identificar las páginas en las que es necesario actualizar los enlaces salientes.

Para exportar la lista completa de enlaces salientes, haz clic en “External Links” en la pestaña “Bulk Export”.

Para obtener una lista completa de todas las ubicaciones y el anchor  de los enlaces salientes, selecciona “All Outlinks” en el menú “Bulk Export”. El informe de todos los enlaces incluirá también los enlaces salientes de tus subdominios; si quieres excluir tu dominio, apóyate en el informe “External links” mencionado anteriormente.

Cómo encontrar los enlaces que están siendo redirigidos

Cuando Screaming Frog termine de rastrear, selecciona la pestaña “Response Codes” de la interfaz principal y filtre por código de estado. Debido a que Screaming Frog utiliza Expresiones Regulares para la búsqueda, envía los siguientes criterios como filtro: 301|302|307. Esto debería darte una lista bastante sólida de todos los enlaces que regresaron con algún tipo de redireccionamiento, ya sea que el contenido se haya movido, encontrado y redirigido permanentemente, o se haya redirigido temporalmente debido a la configuración de HSTS (esta es la causa probable de los 307 redireccionamientos en Screaming Frog). Ordena por “Status Code”, y podrás desglosar los resultados por tipo. Haz clic en la pestaña “In Links” de la ventana inferior para ver todas las páginas en las que se utiliza el enlace de redireccionamiento.

Si exportas directamente desde esta pestaña, sólo verás los datos que se muestran en la ventana superior (la URL original, el código de estado y adónde se redirecciona).

Para exportar la lista completa de páginas que incluyen enlaces de redirección, tendrás que elegir “Redirection (3xx) in Links” en el menú “Advanced Export”. Esto devolverá un CSV que incluye la ubicación de todos tus enlaces redirigidos. Para mostrar sólo las redirecciones internas, filtra la columna “Destination” del CSV para incluir sólo tu dominio.

Contenido del sitio web

Cómo identificar las páginas con contenido débil

Después de que la araña haya terminado de rastrear, ve a la pestaña “Internal”, filtra por HTML, y luego desplázate a la derecha a la columna “Word Count”. Ordena esta columna de menor a mayor para encontrar páginas con bajo contenido de texto. Puedes arrastrar y soltar la columna “Word Count” a la izquierda para ajustar mejor los valores bajos de recuento de palabras a las URL adecuadas. Haz clic en “Export” en la pestaña “Internal” si prefieres manipular los datos en un CSV.

Lista de los enlaces de imágenes de una página en particular

Si ya has rastreado todo un sitio o una subcarpeta, sólo tienes que seleccionar la página en la ventana superior y luego hacer clic en la pestaña “Image Info” en la ventana inferior para ver todas las imágenes que se encontraron en esa página. Las imágenes aparecerán en la columna “To”.

Tip
Haz clic con el botón derecho del ratón en cualquier entrada de la ventana inferior para copiar o abrir una URL. También puedes ver las imágenes en una sola página rastreando sólo esa URL. Asegúrate de que la profundidad de rastreo esté establecida en “1” en la configuración de la araña y, una vez que hayas rastreado la página, haz clic en la pestaña “Images” y verás las imágenes que la araña haya encontrado.

Cómo encontrar imágenes a las que les falta el texto alternativo o imágenes que tienen un texto alternativo muy largo

En primer lugar, debes asegurarte de que la opción “Check Images” esté seleccionada en el menú de configuración de Screaming Frog. Después de que la araña haya terminado de rastrear, ve a la pestaña ‘Images’ y filtra por ‘Missing Alt Text’ o ‘Alt Text Over 100 Characters’. Puedes encontrar las páginas donde se encuentra cualquier imagen haciendo clic en la pestaña ‘Información de la imagen’ en la ventana inferior. Las páginas aparecerán en la columna ‘From’.

Finalmente, si prefieres un CSV, usa el menú “Bulk Export” para exportar “All Images” o “Images Missing Alt Text Inlinks” para ver la lista completa de imágenes, dónde se encuentran y cualquier texto alternativo asociado o problemas con el texto alternativo.

Además, puedes utilizar la barra lateral derecha para navegar a la sección de imágenes del rastreo; aquí puedes exportar fácilmente una lista de todas las imágenes a las que les falta el texto alternativo.

Cómo encontrar cada archivo CSS en mi página web

En el menú de configuración de Screaming Frog, selecciona “Crawl” y “Store” CSS antes de rastrear, y cuando el rastreo haya terminado, filtra los resultados en la pestaña “Internal” por “CSS”.

screaming frog

Cómo encontrar cada archivo JavaScript en mi sitio web

En el menú de configuración de la araña, selecciona “Check JavaScript” antes de rastrear, luego cuando el rastreo termine, filtra los resultados en la pestaña “Internal” por “JavaScript”.

Cómo identificar todos los plugins de jQuery usados en el sitio y en qué páginas se están usando

Primero, asegúrate de que ‘Check JavaScript’ esté seleccionado en el menú de configuración de la araña. Después de que la Screaming Frog terminado de rastrear, filtra la pestaña ‘Internal’ por ‘JavaScript’, luego busca ‘jquery’. Esto le proporcionará una lista de archivos de plugins. Ordena la lista por la ‘Address’ para facilitar la visualización si es necesario, luego mira ‘InLinks’ en la ventana inferior o exporta los datos a un CSV para encontrar las páginas donde se utiliza el archivo. Estas estarán en la columna ‘From’.

Alternativamente, puedes utilizar el menú ‘Advanced Export’ para exportar un CSV de ‘All Links’ y filtrar la columna ‘Destination’ para mostrar sólo las URLs con ‘jquery’.

Tip
No todos los plugins de jQuery son malos para el SEO. Si ves que un sitio utiliza jQuery, la mejor práctica es asegurarse de que el contenido que quieres indexar se incluya en la fuente de la página y se sirva cuando se cargue la página, no después. Si aún no estás seguro, busca el plugin en Google para obtener más información sobre su funcionamiento.

Cómo encontrar páginas que tengan botones para compartir en redes sociales

Para encontrar las páginas que contienen botones para compartir en redes sociales, tendrás que establecer un filtro personalizado antes de ejecutar Screaming Frog. Para configurar un filtro personalizado, ves al menú de configuración y haz clic en “Custom”. A partir de ahí, introduce cualquier fragmento de código de la fuente de la página.

Encontrar las páginas que están usando iframes

Para encontrar las páginas que usan iframes, establece un filtro personalizado para <iframe antes de ejecutar la araña.

Encontrar páginas que contienen contenido de vídeo o audio incrustado

Para encontrar páginas con contenido de vídeo o audio incrustado, establezca un filtro personalizado para un fragmento del código de incrustación de Youtube, o cualquier otro reproductor de medios que se utilice en el sitio.

Meta datos y directivas

Identificar las páginas con títulos de página largos, meta descripciones o URLs

Cuando la araña termine de rastrear, vete a la pestaña “Page Titles” y filtra por “Over 60 Characters” para ver los títulos de las páginas que son demasiado largos. Puedes hacer lo mismo en la pestaña “Meta Description” o en la pestaña “URI”.

Cómo encontrar títulos de páginas duplicadas, meta descripciones o URLs

Cuando Screaming Frog termine de rastrear, vaya a la pestaña “Page Titles”, filtra por “Duplicate”. Puedes hacer lo mismo en las pestañas “Meta Description” o “URI”.

Cómo encontrar contenido duplicado y/o URLs que necesitan ser reescritos/redireccionados

Después de que la araña haya terminado de rastrear, vaya a la pestaña “URL”, luego filtre por “Underscores”, “Uppercase” o “Non ASCII Characters” para ver las URL que potencialmente podrían ser reescritas a una estructura más estándar. Filtra por “Duplicate” y verás todas las páginas que tienen múltiples versiones de URL. Filtra por ‘Parameters’ y verás las URLs que incluyen parámetros.

Además, si vas a la pestaña “Internal”, filtra por “HTML” y desplázate hasta la columna “Hash” en el extremo derecho, verás una serie única de letras y números para cada página. Si hace clic en “Export”, puedes utilizar el formato condicional en Excel para resaltar los valores duplicados en esta columna, mostrando en última instancia las páginas que son idénticas y necesitan ser tratadas.

Identificar páginas que incluyen meta directivas como nofollow/noindex/canonical

Cuando la araña termine de arrastrarse, haga clic en la pestaña “Directives”. Para ver el tipo de directiva, simplemente desplácese a la derecha para ver qué columnas están llenas, o use el filtro para encontrar cualquiera de las siguientes etiquetas:

  • index
  • noindex
  • follow
  • nofollow
  • noarchive
  • nosnippet

Cómo verificar que mi archivo robots.txt funciona como se quiere

Por defecto, Screaming Forg cumplirá con el robots.txt. Como prioridad, seguirá las directivas hechas específicamente para el agente de usuario de la Screaming Frog. Si no hay directivas específicas para el agente de usuario de Screaming Frog, entonces la araña seguirá cualquier directiva para Googlebot, y si no hay directivas específicas para Googlebot, la araña seguirá las directivas globales para todos los agentes de usuario. La araña sólo seguirá un conjunto de directivas, por lo que si hay reglas establecidas específicamente para Screaming Frog sólo seguirá esas reglas, y no las reglas de Googlebot ni ninguna regla global. Si desea bloquear ciertas partes del sitio a la araña, utilice la sintaxis habitual de robots.txt con el agente de usuario “Screaming Frog SEO Spider”. Si desea ignorar el robots.txt, simplemente seleccione esa opción en la configuración de la araña.

Configuration > Robots.txt > Settings

Cómo encontrar o verificar el marcado Schema u otros microdatos en mi sitio

Para encontrar todas las páginas que contienen el marcado del esquema o cualquier otro microdato, es necesario utilizar filtros personalizados. Simplemente haga clic en “Custom” → “Search” en el menú de configuración e introduzca el footprint que estás buscando.

Para encontrar todas las páginas que contienen el marcado Schema, simplemente añade el siguiente fragmento de código a un filtro personalizado: itemtype=http://schema.org

Para encontrar un tipo específico de marcación, tendrás que ser más específico. Por ejemplo, si utiliza un filtro personalizado para ‘span itemprop=”ratingValue”‘, obtendrá todas las páginas que contienen el marcado Schema para las clasificaciones.

A partir de Screaming Frog 11.0, la araña de SEO también nos ofrece la posibilidad de rastrear, extraer y validar datos estructurados directamente desde el rastreo. Valida cualquier dato estructurado de JSON-LD, Microdatos o RDFa según las directrices de Schema.org y las especificaciones de Google en tiempo real a medida que se rastrea. Para acceder a las herramientas de validación de datos estructurados, selecciona las opciones en “Config > Spider > Advanced”.

Ahora hay una pestaña de datos estructurados dentro de la interfaz principal que le permitirá alternar entre las páginas que contienen datos estructurados, a las que les faltan datos estructurados y que pueden tener errores de validación o advertencias

Sitemap

Cómo crear unSitemap XML

Una vez que la araña haya terminado de rastrear su sitio, haga clic en el menú “Sitemaps” y seleccione “XML Sitemap”.

Una vez que haya abierto los ajustes de configuración del mapa de sitio XML, podrá incluir o excluir páginas por códigos de respuesta, última modificación, prioridad, frecuencia de cambio, imágenes, etc. Por defecto, Screaming Frog sólo incluye URLs 2xx pero es una buena regla general para comprobar siempre de nuevo.

Lo ideal sería que el mapa de su sitio XML incluyera sólo una versión de 200 status, única y preferida (canónica) de cada URL, sin parámetros ni otros factores de duplicación. Una vez que se hayan realizado los cambios, pulsa OK. El archivo del mapa de sitio XML se descargará en su dispositivo y te permitirá editar la convención de nombres como desees.

Creación de un mapa del sitio XML mediante la carga de URLs

También puedes crear un mapa de sitio XML subiendo las URL de un archivo existente o pegando manualmente en Screaming Frog.

Cambie el ‘Mode’ de la Araña  List y haz clic en el menú desplegable Subir para seleccionar cualquiera de las dos opciones.

Cómo comprobar mi mapa del sitio XML actual

Puedes descargar fácilmente su mapa de sitio XML existente o el índice del mapa de sitio para comprobar si hay errores o discrepancias de rastreo.

Ves al menú “Mode” en Screaming Frog y selecciona “List”. A continuación, haga clic en “Upload” en la parte superior de la pantalla, elija Descargar mapa del sitio o Descargar índice de mapa del sitio, introduzca la URL del mapa del sitio e inicie el rastreo. Una vez que la araña haya terminado de rastrear, podrá encontrar redirecciones, errores 404, URL duplicadas y mucho más. Puede exportar fácilmente y de los errores identificados.

Identificación de las páginas perdidas en el mapa del sitio XML

Puedes configurar la configuración de rastreo para descubrir y comparar las URL de los mapas de sitios XML con las URL del rastreo de su sitio.

Vaya a ‘Configuration’ -> ‘Spider’ en la navegación principal y en la parte inferior hay algunas opciones para los sitemaps XML: Descubrir automáticamente los sitemaps XML a través de su archivo robots.txt o introducir manualmente el enlace del sitemap XML en el cuadro. *Nota importante: si su archivo robots.txt no contiene los enlaces de destino adecuados a todos los sitemaps XML que desea rastrear, deberá introducirlos manualmente.

Una vez que hayas actualizado la configuración de rastreo de los sitemaps XML, vaya a “Crawl Analysis” en la navegación y haz clic en “Configure” y asegúrese de que el botón Sitemaps esté marcado. En primer lugar, deberás realizar el rastreo completo del sitio y, a continuación, volver a “Crawl Analysis” y pulsar Inicio.

Una vez completado el análisis de rastreo, podrás ver cualquier discrepancia de rastreo, como las URL que se detectaron dentro del rastreo completo del sitio y que faltan en el mapa del sitio XML.

Solución de problemas comunes

Cómo identificar por qué ciertas secciones de mi sitio no están siendo indexadas o no están rankeando

¿Te preguntas por qué ciertas páginas no están siendo indexadas? Primero, asegúrate de que no fueron accidentalmente puestas en el robots.txt o etiquetadas como noindex. Luego, asegúrate de que las arañas puedan llegar a las páginas revisando sus enlaces internos. Una página que no esté vinculada internamente en algún lugar de su sitio suele denominarse Página Huérfana.

Para identificar cualquier página huérfana, sigue los siguientes pasos:

Vaya a ‘Configuration’ -> ‘Spider’ en la navegación principal y en la parte inferior hay unas cuantas opciones para los sitemaps XML – Descubrir automáticamente los sitemaps XML a través de su archivo robots.txt o introducir manualmente el enlace del sitemap XML en la casilla. *Nota importante: si su archivo robots.txt no contiene los enlaces de destino adecuados a todos los sitemaps XML que desea rastrear, deberá introducirlos manualmente.
Vaya a “Configuration → API Acces” → “Google Analytics”: mediante la API puedes obtener datos de análisis para una cuenta y una vista específicas. Para encontrar páginas huérfanas de la búsqueda orgánica, asegúrate de segmentar por “Organic Traffic”.

También puedes ir a General → ‘Crawl New URLs Discovered In Google Analytics’ si quieres que las URL descubiertas en GA se incluyan en el crawl completo de tu sitio. Si esto no está habilitado, sólo podrás ver las nuevas URL extraídas de GA dentro del informe de páginas huérfanas.

Ves a “Configuration → API Acces” → “Google Search Console” – usando la API puedes obtener los datos del GSC para una cuenta específica y verlos. Para encontrar páginas huérfanas, puedes buscar URL que reciban clics e impresiones que no estén incluidas en tu rastreo.
También puede consultar la página general → “Crawl New URLs Discovered In Google Search Console” si quieres que las URL descubiertas en el GSC se incluyan en el rastreo completo de tu sitio. Si esto no está habilitado, solo podrás ver las nuevas URL extraídas del GSC dentro del informe Páginas huérfanas.
Rastrea todo el sitio web. Una vez que el rastreo se haya completado, ves a ‘Crawl Analysis -> Start’ y espere a que termine.
Vea los URL huérfanos dentro de cada una de las pestañas o exporte en masa todos los URL huérfanos yendo a Reports → Orphan Pages

Si no tienes acceso a Google Analytics o GSC puedes exportar la lista de URLs internas como un archivo .CSV, usando el filtro ‘HTML’ en la pestaña ‘Internal’.

Abre el archivo CSV y, en una segunda hoja, pega la lista de las URL que no se están indexando o que no están bien clasificadas. Utiliza un VLOOKUP para ver si los URL de tu lista en la segunda hoja se encontraron en el rastreo.

Cómo encontrar páginas de carga lenta en mi página web

Cuando la araña termine de rastrear, ves a la pestaña “Response Codes” y ordena por la columna “Response Time” de mayor  a menor para encontrar páginas que puedan estar sufriendo una velocidad de carga lenta.

Cómo encontrar malware o spam en mi web

Primero, tendrás que identificar el footprint del malware o el spam. A continuación, en el menú de configuración, haga clic en “Custom” → “Search” e introduce el footprint que está buscando.

Puedes introducir hasta 10 footprints diferentes por cada rastreo. Finalmente, pulse OK y proceda a rastrear el sitio o la lista de páginas.

Cuando Spider Frog termine de rastrear, selecciona la pestaña “Custom” en la ventana superior para ver todas las páginas que contienen tu footprint. Si has introducido más de un filtro personalizado, puedes ver cada uno de ellos cambiando el filtro en los resultados.

Scraping

Cómo scrapear los metadatos para una lista de páginas

Así que, ¿has generado un montón de URLs, pero necesitas más información sobre ellas? Configura tu modo en ‘List’, y luego sube tu lista de URLs en formato .txt o .csv. Una vez que Screaming Frog haya terminado, podrás ver los códigos de estado, los enlaces salientes, el recuento de palabras y, por supuesto, los metadatos de cada página de tu lista.

Cómo scrapear un sitio para todas las páginas que contienen un específico footprint

En primer lugar, tienes que identificar el footprint. A continuación, en el menú de configuración, haz clic en “Custom” → “Search” o “Extraction” e introduce ese footprint que te interesa.

Reescritura de URLs

 Encontrar y eliminar el identificador de sesión u otros parámetros de mis URL rastreadas

Para identificar las URLs con identificadores de sesión u otros parámetros, sólo tienes que rastrear tu web con la configuración predeterminada. Cuando la araña termine, haz clic en la pestaña “URL” y filtra a “Parameters” para ver todas las URL que incluyen parámetros.

Para eliminar los parámetros que se muestran para las URL que rastrea, seleccione “URL Rewriting” en el menú de configuración y, a continuación, en la pestaña “Remove Parameters”, haz clic en “Add” para añadir los parámetros que deseas eliminar de las URL y pulse “OK”. Tendrás que volver a ejecutar la araña con estos parámetros para que se produzca la reescritura.

Reescribir las URLs rastreadas

Para reescribir cualquier URL que rastrees mediante Screaming Frog, selecciona “URL Rewriting” en el menú de Configuración, luego en la pestaña “Regex Replace”, haz clic en “Add” para agregar el RegEx de lo que quieres reemplazar. Y listo! Fácil, verdad? 😉

Una vez que hayas añadido todas las reglas deseadas, puedes probar tus reglas en la pestaña “Test” introduciendo una URL de prueba en el espacio denominado “URL before de rewriting”. Si deseas establecer una regla que establezca que todas las URL se devuelvan en minúsculas, sólo tienes que seleccionar “Lowercase discovered URLs” en la pestaña “Options”. De esta forma, se eliminará cualquier duplicación de URL en mayúsculas en el rastreo.

Investigación de palabras clave

Cómo saber qué páginas valoran más mis competidores

En general, los competidores tratarán de difundir la popularidad de los enlaces y dirigir el tráfico a sus páginas más valiosas enlazándolas internamente. Cualquier competidor con mentalidad de SEO probablemente también enlazará a páginas importantes de su blog de la compañía. Encuentra las páginas más valiosas de tu competidor rastreando su sitio, luego clasifica la pestaña “Internal” por la columna de “Inlinks” de mayor a menor, para ver qué páginas tienen más enlaces internos.

Para ver las páginas enlazadas desde el blog de tu competidor, desmarca “Check links outside folder” en el menú de Configuración de Screaming Frog y rastrea la carpeta/subdominio del blog. A continuación, en la pestaña “External”, filtra los resultados mediante una búsqueda de la URL del dominio principal. Desplázate hasta el extremo derecho y ordena la lista por la columna “Inlinks” para ver qué páginas se enlazan más a menudo.

Cómo saber qué anchor text están usando mis competidores para la vinculación interna

Para poder averiguar que anchors está utilizando tu competencia respecto al interlink ves al menú “Bulk Export” de Screaming Frog y selecciona “All Anchor Text”. De esta manera lo vas a poder exportar en formato csv.

Link Building

Cómo analizar una lista de potenciales sitios de enlace

Si has rastreado o creado una lista de URL que deben ser examinadas, puedes subirlas y rastrearlas en el modo “List” para obtener más información sobre las páginas. Cuando la araña termine de rastrear, comprueba los códigos de estado en la pestaña “Response Codes” y revisa los enlaces salientes, los tipos de enlaces, el texto de anclaje y las directivas nofollow en la pestaña “Outlinks” de la ventana inferior. Esto te dará una idea de a qué tipo de sitios enlazan esas páginas y cómo. Para revisar la pestaña ‘Outlinks’, asegúrese de que su URL de interés esté seleccionada en la ventana superior.

 

Espero que esta guía de Screaming Frog te ayude para que puedas exprimir a tope esta increíble herramienta SEO.

Nos vemos en el siguiente artículo! 😉