黑产工具分析03:爬取电商商业数据的蛀虫
2020-11-24 11:47:23 Author: www.4hou.com(查看原文) 阅读量:313 收藏

关键字:电商爬虫 价格爬取

发现时间:2020年5月

概述

本次分析的工具是给“无货源商家”做电商选品与盗转商品信息用的工具。

无货源商家,顾名思义,就是不需要自己准备货源的电商商家,货源来自于其他店铺的产品,重新定价后在自己店铺售出,当客户在自己店铺下单时,再利用软件去所对应的店铺下单,然后赚取商品的差价。而选品,指的就是这些无货源商家将从电商平台爬取商品信息罗列起来,挑选合适的商品,选入自己的店铺中。

这个工具一个功能较多的综合化电商选品工具,其中包括爬虫工具、转链工具和上货工具,其中对电商平台影响最大的还是爬虫工具。我们检测到了该工具会爬取包括〇宝、拼〇〇等多家电商平台的商品信息,并涉及到了对应平台返利联盟的返利比例爬取。

根据对该工具的视频教程进行分析,我们可以了解到,该工具爬取的数据包括商品ID、店铺ID、商品标题、商品价格、销量、佣金比例,以及店铺商品数量、销量等信息。

image (24).png

根据关键词库爬取商品信息

image (25).png

利用该工具爬取店铺信息

而伴随着爬取工具的升级,该工具逐渐在版本更新中添加了大量的辅助类工具,如裂变标题生成、同行分析、转链上货一体化操作等,这些新增功能均是基于爬取商品信息后再进行的分析,进一步加大了电商平台的爬虫压力。

米粒智能选品--养店.png

同行分析相关功能

众所周知,各大电商平台对价格爬取是有一定的反制措施的,包括但不限于限制单IP、单账号的搜索请求频率。在这个工具中,我们从主界面就可以看到,为了爬取到商品信息,该工具采取了“人海战术”,即利用大量的账号资源与代理IP资源去进行数据“分布式爬取”,将所需的店铺ID、商品ID、标题、价格等数据进行爬取,再整合到一个列表中,从而实现将大量的商品信息爬取到本地。该工具主要爬取的电商平台为〇宝与拼〇〇。

image (26).png

图为爬取拼〇〇商品信息

该工具爬取时会利用软件集成代理IP与事先导入的电商平台账号进行爬取,由于电商平台会对异常行为账号进行行为校验或屏蔽,该工具为了提高爬取的效率,还会对账号登录信息Token的可用性进行检测。

image (27).png

工具分析

基本信息

image (27-1).png

详细分析

该工具首次发现于2020年5月26日,是一款采用E语言编写,并且使用VMP加壳的工具软件。对该工具进行静态分析,我们可以确认该工具是一款协议工具,通过破解各大电商平台app的业务接口通信协议,向电商的后台服务器发送精心伪造的数据包,从而达到自动爬取商品信息的目的。

相比于模拟按键脚本(触控精灵/按键精灵等),协议工具脱离了设备的限制,黑灰产利用协议工具可以更低成本完成批量化规模化作案,因此危害也更加严重。

以该工具对拼〇〇上的商品信息爬取为例,

工具首先会调用以下接口进行登陆:

hxxps://mms.pin***.com/latitude/auth/login

image (28).png

爬取商品信息时所使用到的一些接口:

hxxps://mms.pin***.com/venus/api/goods/list

hxxps://pifa.pin***.com/pifa/goods/queryGoodsDetail

hxxps://pifa.pin***.com/pifa/goods/queryGoodsPropertyInfo

hxxps://youhui.pin***.com/network/api/goods/queryByGoodsId

hxxps://mms.pin***.com/vodka/v2/mms/query/display/mall/goodsList

hxxps://mms.pin***.com/sydney/api/mallScore/queryMallScoreInfo

image (29).png

部分接口请求代码,其中请求头已内置

另外,此工具还用到了打码平台、代理平台来绕过电商平台的反爬虫策略。

该工具使用到的代理平台:

hxxp://www.**daili.cn/

该工具使用到的打码平台:

hxxp://www.**dama.com/

总结

爬虫对电商平台的威胁由来已久,针对这种爬取商品价格信息的工具也是层出不穷。虽然各电商已经有相对完善的手段去检测并拦截一些异常的自动化请求,但是来自黑灰产的需求源源不断,自然会出现绕过对应规则的工具,这属于长期的攻防对抗。

面对这种需要长期进行对抗的情况,电商平台的应对方式可以采取灵活多样的识别与拦截手段,从而提升黑灰产自动化工具的作恶成本,从而抑制其对数据的爬取。识别异常爬取行为可以利用IP风险识别、账号异常多地频繁登录、账号登录设备异常、账号搜索行为频率过高等检测手段进行发现与判断,并利用包括但不限于字符验证码、语音验证码等多种验证方式提高黑灰产的绕过成本,在不影响真人用户访问的情况下,对黑产的访问进行拦截。

如若转载,请注明原文地址


文章来源: https://www.4hou.com/posts/jLEy
如有侵权请联系:admin#unsafe.sh