履带的限制
您可能经常需要测试web应用程序的特定区域,如主页,或阻止扫描某些区域,如管理面板。爬虫限制选项卡允许您设置一个URL爬行允许列表或拒绝列表。
开始扫描时,AppSpider会访问主要设置.然后,它递归地访问链接到种子url的所有页面,在应用程序中生成页面、目录和参数清单。AppSpider会将它发现的每个页面的URL与爬虫限制列表中的每个条目从上到下进行匹配。匹配URL的最后一个限制用于决定是否将包含或从扫描中排除该URL。如果没有匹配URL的限制,则不会抓取该URL。例如,使用截图中的限制,http://webscantest.com/datastore/items
会包含在扫描中,但是http://webscantest.com/datastore/admin/settings.html
将被排除在外。
爬虫限制不能为空。如果您不提供爬虫限制,它们将从您的种子url自动生成。属性可以删除和编辑限制的顺序删除,向上移动和向下移动按钮。
综合设置
“全面性”设置控制AppSpider如何全面抓取你的应用程序。你可以使用这个设置来提高扫描速度。Comprehensiveness设置有两个可能的值:
- 默认的- AppSpider将抓取发现的页面样本,提供一个良好的网站表现。
- 快速扫描- AppSpider将减少抓取和攻击类似url和参数的次数。
爬虫限制表
爬虫限制使您能够控制正在爬行的应用程序的各个部分。爬虫限制表包含以下列:
- URL—该字段可以包含完整的URL,也可以包含通配符或正则表达式的URL。
- 匹配类型-该字段控制用于匹配在扫描中发现的URL与抓取限制中提供的URL的逻辑。它可以有以下可能的值:
- 通配符—当与发现的URL匹配时,爬虫限制中的通配符。的
*
通配符匹配任何符号吗?
匹配一个符号。 - 文字—将发现的URL与抓取限制的字符串精确匹配。
- 正则表达式—当与发现的URL匹配时,占用抓取限制中的正则表达式。正则表达式必须是一个有效的URL
http (s) ?: / /
.
- 通配符—当与发现的URL匹配时,爬虫限制中的通配符。的
- 行动—取值如下:
- 包括-在抓取中包含URL。
- 排除-排除从抓取的URL,不扫描它。
- 动词-“动词”是一个网络动词,如GET、POST或PUT。你可以在这里学习更多关于网络动词的知识:https://developer.mozilla.org/en-US/docs/Web/HTTP/Methods.默认情况下,爬虫限制应用于所有动词,但您可以提供特定于特定动词的限制。
爬虫限制按钮
您可以使用Crawler Restrictions表下面的按钮来重置爬虫限制,并基于种子url应用新的限制。如果我们假设种子URL是http://webscantest.com/datastore/
,按钮将执行以下动作:
- 限制到域—限制扫描到种子URL所在的域。(
http://webscantest.com/datastore/
>http://webscantest.com/ *
) - 限制到域和子域—限制扫描到种子URL的域和子域。(
http://webscantest.com/datastore/
>http:// * .webscantest.com/ *
) - 限制目录—限制扫描到种子URL所在目录。(
http://webscantest.com/datastore/
>http://webscantest.com/datastore/ *
)
如何使用爬虫限制
下面是一些场景,你可以使用爬虫限制,使你的扫描更有效:
- 在多语言网站上,您可以设置您的爬虫限制,只覆盖一种语言,以减少冗余和提高扫描性能:
1https://www.AppSpiderTarget.com/en/ *通配符包括
- 您可以避免站点的某个特定部分具有您不想触发的功能。使用通配符来避免整个部分或字面值,以避免特定的页面或参数:
1https://www.AppSpiderTarget.com/postABlog/文字排除2https://www.AppSpiderTarget.com/contactUs/文字排除3.https://www.AppSpiderTarget.com/adminPanel/ *通配符排除
如果要排除的函数可以出现在目录树的任何地方,你可以使用正则表达式匹配类型:
1http (s )?://(.)+( postReview)(。)?Regex排除
- 在非常大的站点上,您可能希望使用多种配置进行扫描。每个配置将覆盖站点的一部分,而不是一次覆盖整个站点。这将使您更好地控制扫描时间,并允许更快的时间进行补救。
扫描配置:
1https://www.AppSpiderTarget.com/products/categories/A/ *通配符包括2https://www.AppSpiderTarget.com/products/categories/B/ *通配符包括3.https://www.AppSpiderTarget.com/products/categories/C/ *通配符排除4https://www.AppSpiderTarget.com/products/categories/D/ *通配符排除
扫描配置B:
1https://www.AppSpiderTarget.com/products/categories/A/ *通配符排除2https://www.AppSpiderTarget.com/products/categories/B/ *通配符排除3.https://www.AppSpiderTarget.com/products/categories/C/ *通配符包括4https://www.AppSpiderTarget.com/products/categories/D/ *通配符包括
- 您可以使用VERB值来排除不希望被扫描引擎调用的HTTP方法:
1https://AppSpiderTarget.com/*通配符排除POST2https://AppSpiderTarget.com/*通配符排除PUT
这个页面对你有帮助吗?