履带的限制

您可能经常需要测试web应用程序的特定区域,如主页,或阻止扫描某些区域,如管理面板。爬虫限制选项卡允许您设置一个URL爬行允许列表或拒绝列表。

开始扫描时,AppSpider会访问主要设置.然后,它递归地访问链接到种子url的所有页面,在应用程序中生成页面、目录和参数清单。AppSpider会将它发现的每个页面的URL与爬虫限制列表中的每个条目从上到下进行匹配。匹配URL的最后一个限制用于决定是否将包含或从扫描中排除该URL。如果没有匹配URL的限制,则不会抓取该URL。例如,使用截图中的限制,http://webscantest.com/datastore/items会包含在扫描中,但是http://webscantest.com/datastore/admin/settings.html将被排除在外。

爬虫限制不能为空。如果您不提供爬虫限制,它们将从您的种子url自动生成。属性可以删除和编辑限制的顺序删除向上移动向下移动按钮。

综合设置

“全面性”设置控制AppSpider如何全面抓取你的应用程序。你可以使用这个设置来提高扫描速度。Comprehensiveness设置有两个可能的值:

  • 默认的- AppSpider将抓取发现的页面样本,提供一个良好的网站表现。
  • 快速扫描- AppSpider将减少抓取和攻击类似url和参数的次数。

爬虫限制表

爬虫限制使您能够控制正在爬行的应用程序的各个部分。爬虫限制表包含以下列:

  • URL—该字段可以包含完整的URL,也可以包含通配符或正则表达式的URL。
  • 匹配类型-该字段控制用于匹配在扫描中发现的URL与抓取限制中提供的URL的逻辑。它可以有以下可能的值:
    • 通配符—当与发现的URL匹配时,爬虫限制中的通配符。的通配符匹配任何符号吗?匹配一个符号。
    • 文字—将发现的URL与抓取限制的字符串精确匹配。
    • 正则表达式—当与发现的URL匹配时,占用抓取限制中的正则表达式。正则表达式必须是一个有效的URLhttp (s) ?: / /
  • 行动—取值如下:
    • 包括-在抓取中包含URL。
    • 排除-排除从抓取的URL,不扫描它。
  • 动词-“动词”是一个网络动词,如GET、POST或PUT。你可以在这里学习更多关于网络动词的知识:https://developer.mozilla.org/en-US/docs/Web/HTTP/Methods.默认情况下,爬虫限制应用于所有动词,但您可以提供特定于特定动词的限制。

爬虫限制按钮

您可以使用Crawler Restrictions表下面的按钮来重置爬虫限制,并基于种子url应用新的限制。如果我们假设种子URL是http://webscantest.com/datastore/,按钮将执行以下动作:

  • 限制到域—限制扫描到种子URL所在的域。(http://webscantest.com/datastore/>http://webscantest.com/ *
  • 限制到域和子域—限制扫描到种子URL的域和子域。(http://webscantest.com/datastore/>http:// * .webscantest.com/ *
  • 限制目录—限制扫描到种子URL所在目录。(http://webscantest.com/datastore/>http://webscantest.com/datastore/ *

如何使用爬虫限制

下面是一些场景,你可以使用爬虫限制,使你的扫描更有效:

  1. 在多语言网站上,您可以设置您的爬虫限制,只覆盖一种语言,以减少冗余和提高扫描性能:
         
1
https://www.AppSpiderTarget.com/en/ *通配符包括
  1. 您可以避免站点的某个特定部分具有您不想触发的功能。使用通配符来避免整个部分或字面值,以避免特定的页面或参数:
         
1
https://www.AppSpiderTarget.com/postABlog/文字排除
2
https://www.AppSpiderTarget.com/contactUs/文字排除
3.
https://www.AppSpiderTarget.com/adminPanel/ *通配符排除

如果要排除的函数可以出现在目录树的任何地方,你可以使用正则表达式匹配类型:

         
1
http (s )?://(.)+( postReview)(。)?Regex排除
  1. 在非常大的站点上,您可能希望使用多种配置进行扫描。每个配置将覆盖站点的一部分,而不是一次覆盖整个站点。这将使您更好地控制扫描时间,并允许更快的时间进行补救。

扫描配置:

         
1
https://www.AppSpiderTarget.com/products/categories/A/ *通配符包括
2
https://www.AppSpiderTarget.com/products/categories/B/ *通配符包括
3.
https://www.AppSpiderTarget.com/products/categories/C/ *通配符排除
4
https://www.AppSpiderTarget.com/products/categories/D/ *通配符排除

扫描配置B:

         
1
https://www.AppSpiderTarget.com/products/categories/A/ *通配符排除
2
https://www.AppSpiderTarget.com/products/categories/B/ *通配符排除
3.
https://www.AppSpiderTarget.com/products/categories/C/ *通配符包括
4
https://www.AppSpiderTarget.com/products/categories/D/ *通配符包括
  1. 您可以使用VERB值来排除不希望被扫描引擎调用的HTTP方法:
         
1
https://AppSpiderTarget.com/*通配符排除POST
2
https://AppSpiderTarget.com/*通配符排除PUT