白泽带你读论文|SnorCall
2023-9-25 11:16:45 Author: mp.weixin.qq.com(查看原文) 阅读量:13 收藏

如需转载请注明出处,侵权必究。

论文题目:Diving into Robocall Content with SnorCall

发表会议:Security 2023

本文的第一作者是来自北卡罗来纳州立大学计算机科学系的博士生Sathvik Prasad,导师是Brad Reaves,研究方向是跨系统安全和隐私领域,重点是开发数据驱动技术来研究垃圾邮件、滥用和欺诈的问题。

概述

Robocalls - 即自动拨号电话(也称为"未经请求的批量电话呼叫")已经成为普遍现象。然而,大多数的robocalls 属于违法行为。本文介绍了基于Snorkel框架的自动化分析robocalls的工具SnorCall。利用SnorCall对大规模的robocalls 数据进行分析,初步估计了不同类型的诈骗和合法robocalls 的流行程度。此外,本文还确定了这些电话中涉及的组织,并预估了诈骗电话中的平均诈骗金额。同时还识别了诈骗活动之间共享的基础设施,并监测与选举相关的政治呼声的兴衰。最后,本文演示了监管机构、电信服务提供商、反robocalls 产品供应商和研究人员如何利用SnorCall准确分析robocalls 的内容和趋势,以提供更好的防御机制。

背景

"robocalls"是指自动拨号电话,也被称为"未经请求的批量电话呼叫"。它们是由自动化系统或计算机程序自动拨打的电话。与传统的人工拨号电话不同,robocalls可以大规模地发送到大量电话号码,通常以广告宣传、推销或诈骗为目的。这些电话通常使用预先录制的语音消息或合成的语音进行播放,无需实时的人工操作。由于其骚扰性质和频繁性,robocalls已经成为一个普遍存在的问题,给人们带来了困扰和不便。

绝大多数的robocalls都包含预先录制的音频,旨在通知或说服受众采取某些行动。如学校停课通知或公共安全通知的robocalls是合法的,而非法的robocalls完全是以欺诈为目的,并且非常活跃。负责这些欺诈的robocalls的攻击者收入预估达到数百万美元。尽管社会已经采取了广泛的技术和法律措施,但阻止非法robocalls仍然是一个重大挑战。

之前的研究工作在理解robocalls滥用方面大都受到了数据不足的限制,大部分工作依赖于蜜罐收集的数据、供应商共享的数据或外部报告。此外,先前的工作主要关注通话记录等元数据而不关注通话音频,这主要是因为获取通话音频可能存在困难,或在大规模处理时成本太高。同时先前的工作主要集中研究如何有效阻止robocalls,而不是分析robocalls的通话内容。相比之下,本文的研究重点是为监管机构、运营商和研究人员提供对robocalls进行详细的自动化内容分析。

自动化分析工具 SnorCall

图 1 SnorCall的整体架构

数据收集

作者通过操作蜜罐来获得呼叫音频和呼叫元数据,在本文中,作者收集了从2020年1月1日至2021年11月30日的23个月期间向5949个电话号码发出的呼叫。

音频预处理

音频预处理包括音频聚类和音频转录处理。由于robocalls的呼叫者会在呼叫中重复使用录音,因此本文把音频聚类并根据音频相似性对robocalls的录音进行分组,同时为了节省后续转录资源,最终从每个音频集群随机选择一个呼叫进行处理。在经过音频聚类后,作者使用了Google的Speech-to-Text(STT)在线转录服务将robocall音频记录转换为文本。

语言检测

由于后续分析robocalls内容使用到的NLP技术和库是特定于某一种语言,因此语言检测部分用于过滤非英语的robocalls。本文提出的语言检测的关键insight是当使用英语语言转录服务时,转录文本的长度与通话中英语内容量成正比。即一段英语通话时间长且具有大量音频和较少的静音将生成一份较长的转录文本,而一段时间长且有大量其他语言音频的通话将生成一份短小、不连贯的英语转录文本。利用该思路,作者训练了一个岭回归分类器,并实现了如图2所示的平均准确率为0.97的语言分类效果。

图 2  分类英语和非英语Calls

语义分析

在提取完robocalls的文字后,需要对其进行语义分析。本文共定义五个类别的robocalls,分别为Social Security、Tech Support Scam、Political calls、Financial calls、Business Listing calls,本文使用Snorkel半监督标记框架,通过人工方式定义了部分简单的轻量级标记函数(LF),并基于部分已标记的robocalls样本训练标记函数,在预测阶段将初步定义好的标签分配给其他未标记的robocalls,从而实现robocalls的分类。

图 3 robocalls分类结果

实验结果

本文的研究从2020年1月1日开始到2021年11月30日结束,共接听了5,949个电话号码的1,355,672次呼叫。在进行静音检测预处理后,共有371,045次(27.37%)通话包含足够的音频信息,可供进一步分析。

实验发现

在收集大量robocalls的数据集后,本文利用Snorcall框架对robocall进行分析,并根据每一类robocall的分析结果提出了以下发现:

社会保障Robocalls

SnorCall发现了一种鲜为人知的社会保障诈骗类型,即针对寻求社会保障福利的弱势群体的诈骗。来电者冒充社会保障残疾顾问。这些电话听起来友善且没有威胁性。诈骗者通过制造一种事先承诺的感觉和虚假的权威性,诱使受害者作出回应。关于这种社会保障诈骗电话的信息很少为人所知,公众宣传也非常有限。据SnorCall统计,这种鲜为人知的变种已经进行了515个宣传活动,共计3,498个电话。

图 4  冒充社会保障管理局的电话受到全球新冠肺炎封锁的影响,并在2021年圣诞节和新年假期大幅减少

在COVID-19大流行期间,社会保障诈骗电话出现了重大变化。根据图4的数据显示,由于与COVID-19相关的限制措施禁止人们上下班或前往住所以外的其他地方,因此封控直接影响了需要人们在办公室和其他指定地点工作的业务运营。根据本文的推测,电话量的急剧下降表明,社会保障诈骗活动受到封控的干扰,且诈骗分子在具备办公室式基础设施的专门工作地点进行操作。

技术支持Robocalls

技术支特诈骗的诈骗分子冒充知名技术公司的技术专家,以造成经济损失为目的对受害人进行诈骗。

本文发现有6个电话号码的来电者声称代表Coinbase客户支持。这些电话是冒充Coinbase的支持人员,声称接听者的账户已被锁定。来电者以帮助恢复接听者被锁定的比特币的目的来诱导接听者按下键盘上的数字。随着移动加密货币钱包和交易平台的日益普及和采用,冒充加密货币平台成为技术支持诈骗的一种有利可图的方式。为了实现加密货币诈骗的高成功率,这类robocalls必须专门针对拥有加密货币钱包的用户的电话号码。

政治类robocall

政治电话数量逐渐增加,在2020年总统选举日(2020年11月3日)达到最高烽,随后急剧下降。该现象和本文所期望的相同,即各政党和候选人在临近选举日时最大限度地开展选民工作。这包括通过robocalls联系选民。随着选举日的临近,政治类robocalls的数量会增加,随后会急剧下降。

企业列表类robocall

企业列表电话的目标对象以中小型企业为主。这些电话主要提供在线营销或搜索引擎优化(SEO)服务,涉及谷歌、Bing、亚马逊Alexa网络等平台。这些电话利用许多小企业主对在线营销和SEO技术并不了解的情况进行诈骗。然而,这些电话经常使用一些不合法的手段来影响在线平台上的搜索结果和企业列表。

金融类robocall

SnorCall在2020年1月和2月观察到了多个异常活动。这些活动涉及数百个提供学生贷款减免的电话。同时金融类robocalls中,有宣传在家赚钱计划的情况,这些电话通常承诺可以在短时间内赚取大量金钱。这对于因COVID-19疫情而从传统工作方式转向远程工作的人尤其具有吸引力。

金融robocalls也会伪装成银行、信用卡供应商和美国联邦机构进行欺骗。根据图5的数据显示,SnorCall发现金融类robocalls中提及了多个组织。声称代表知名银行主动拨打电话的情况很少是合法的,本文手动检查了金融电话中提到的组织,并确认了其中的知名银行和其他金融机构。本文发现,信用卡供应商是最常被提及的金融组织。

图 5 金融类robocalls冒充知名银行、支付平台、信用卡供应商和美国国税局

SnorCall的讨论和未来工作

  1. SnorCall使监管机构和执法机构能够主动发现恶意robocalls,并优先考虑那些具有更大危害性的robocalls。调查人员可以优先追踪那些对公众造成更大威胁的欺诈性骗局(如社会保障和国税局),而不是营销电话(如汽车保修)。及时检测和优先资源分配可以最大程度地减少对公众的伤害。

  2. 运营商可以利用SnorCall来监控其订阅用户的恶意robocalls。通过制定临时的遏制策略,阻止恶意活动的callerID的呼叫。

  3. 未来的研究可以进一步探索语义分类的应用,并研究SnorCall在主动调查环境中的部署(例如服务提供商的欺诈团队),以更好地了解robocalls的演变。并帮助开发启发式方法,更早地发现恶意活动。

总结

本文基于Snorkel框架实现了自动化分析robocalls的工具SnorCall。利用SnorCall对大规模的robocalls 数据进行分析,初步估计了不同类型的诈骗和合法robocalls 的流行程度并确定了这些电话中涉及的组织,以及预估诈骗电话中的平均诈骗金额。同时还识别了诈骗活动之间共享的基础设施,并监测与选举相关的政治呼声的兴衰。

供稿:黄玉锐

审稿:李帅、邬梦莹、洪赓

排版:边顾

戳“阅读原文”即可查看论文原文哦~

复旦白泽战队

一个有情怀的安全团队

还没有关注复旦白泽战队?

公众号、知乎、微博搜索:复旦白泽战队也能找到我们哦~


文章来源: https://mp.weixin.qq.com/s?__biz=MzU4NzUxOTI0OQ==&mid=2247486997&idx=1&sn=a88919ad4c109e78f72fed344e5fe478&chksm=fdeb8a6bca9c037dc4c338b019d5cdfe7ffc1dd8dae4e61dd119bd18bcba14878a28220f45f8&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh