支付宝有多狠？当年为抓骗子搞出“图计算”，现在竟用它预测未来

浅友们好~我是史中，我的日常生活是开撩五湖四海的科技大牛，我会尝试用各种姿势，把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友，不妨加微信（shizhongmax）。

支付宝有多狠？

当年为抓骗子搞出“图计算”

现在竟用它预测未来

文 | 史中

（零）圣彼得堡凶杀案

19世纪，圣彼得堡的一座高档公寓里，发生了一起凶案。

一位富商在浴室被刺死，而凶器就遗落在一旁，是一把精致的开信刀。

资深的警探史·伊万懦夫·中奉命调查此事。他制定了天衣无缝的调查计划：

1）先调查富商，把和他可能有过节的100人列成一张“表格A”；
2）再调查刀具工匠，这款刀是限量款，只做过100把，于是把买过刀的客户也列成一张“表格B”；
3）然后对A、B两个表格进行比对，看看有没有重合的人。

结果，两群人完全不重合。

“这。。。不科学啊，一定存在更隐蔽的联系！”

警探不放弃，决定进一步调查。

他把“表格A”上的100人和“表格B”上的100人分别连线，成为10000组配对，然后挨个走访调查。

他想发现这些“配对”之间有没有“曾同处一室”或“认识同一位中间人”的情况，但组合众多，其中的可能性也多如牛毛。史·伊万懦夫·中咬咬牙，以坚毅的决心开始推进！

调查进行了几个月，案件陷入一团乱麻，但警探遇到了不得的事儿：

表格B上有一位刀具经销商格列布，格列布对他说，你这么有毅力有恒心，不妨跟我做生意，比当警探好赚多了！表格A上有另一位富豪安托尼，他的女儿居然对自己产生了爱慕之情。

于是，史·伊万懦夫·中毅然决定出任格列布公司的总经理，然后娶了安托尼的女儿，走上人生巅峰。

今天的浅黑讲故事就到这里。

等等。。。那边血泊里还躺着一位呢，不管了吗？！

不是不管，是真管不了。。。

我们回到警探身边，不难发现，他面前发散出了无数个表格：

和死亡富商有关的人组成了“表格A”，
表格A上第1个人去过的地方组成了“表格A1”，
表格A1上的第一个地点又有好多人去过，他们组成了“表格A1-1”，
表格A1上的第二个地点又有好多人去过，他们组成了“表格A1-2”，
以此类推，无穷尽也。。。

每个人都和众多地点和人存在关联，如果事无巨细地顺藤摸瓜，最终定能找到几条被害人和刀之间的连线，再从中排查，大概率能找到凶手。

但问题是，这么干。。。懦夫警探到退休也不一定能查出真相啊。。。人生苦短为啥不出任总经理迎娶白富美？

残酷的事实是：

哪怕明知道人命关天的真相就藏在一堆数据里，因为分析复杂，代价太大，实际上根本无法进行——而无法浮现出来的真相，就不是真相。

但我们不想一直迷迷糊糊地生活，我们渴望用技术接近真相。

直接向你宣布两个好消息：

第一，21世纪的今天，我们掌握了一种“显影术”，弹指一挥间，就能从浩渺的数据中查询关联、计算真相，这就是——图计算。

第二，在图计算领域，中国人的技术一直居于世界前列，相当于巴西在足球历史中的地位——是少有的我们从没被任何人“卡脖子”的尖端领域。

话说，啥是“图计算”嘞？

我先用五句话简单科普一下：

1、世上万事万物，都可以用数据来描述，我们会把数据存在数据库中。
2、但一般数据库里的表格都是“二维”的，只能展现事情的一个侧面。为了记录不同侧面，我们就得做很多表格。（就像警探那样）
3、由于这些表格是分散的，原本属于实体之间的“关系”也被切了个稀碎。所以了解某个表格里的具体数据容易，但想了解不同表格里实体之间的关系，就需要把一堆表格放在一起研究，这很费劲。
4、那我们不如在一开始就别分那么多表格，直接把所有的数据存在同一个三维空间里！这个能存储多个“实体”和他们之间“关系”的数据系统，就叫“图数据库”。
5、在图数据库上做计算，像柯南一样发现真相，就是“图计算”。

你可以这样理解：普通的数据库是图数据库在某个平面的“投影”，而图数据库是普通数据库融合在一起形成的“全息影像”。

话说，要是史·伊万懦夫·中警探穿越到今天，他就可以把警局的“户籍数据”、“金融转账数据”甚至“交通数据”都导进图数据库中，再输入自己调查到的独家信息，按一下回车键，一条清晰的连线没准就会奇迹般浮现在他眼前！

正所谓，踏破铁鞋无觅处，得来全靠图数据库！能把人一生的艰苦卓绝都压进几十毫秒的计算里，这是一种专属于科技的浪漫。

而我幸运地认识了一位制造这种顶级浪漫的大牛。他就是蚂蚁集团图数据库的负责人，洪春涛。

你不一定听过他的名字，但是，每当你用支付宝转账的时候，金额、设备、人物关系等，都是图计算判断你的账户是否有风险的依据。

从这个意义上说，在座各位都享受过他和小伙伴们的“贴身服务”。

洪春涛

（一）点燃技术进步“第一把火”的竟是骗子

我猜很多人心里有隐隐的疑问：

为啥“图数据库”这个技术蚂蚁集团做得好？

答案并不那么显而易见。

你想想，支付宝是个支付工具，它的数据库只要把每笔转账的“金额”记清楚，不错一分钱，就够了，为啥非要费劲把人、设备的关系这些“额外信息”也存进去呢？增加存储成本不说，还得额外保护这些数据不泄露，里外都是负担！

答案是两个字：骗子。

在支付宝刚成立的时候，数据库里确实只存“用户 ID”和“转账金额”等几个有限的信息。

但是人的恶念像水，只要有缝隙，就会渗进去。

很快，有人开始“盗号”，偷来别人的密码，或伪造身份证重置别人的密码，在自己的电脑上（那时候还没有手机版）登录，把钱转走。

只靠ID和金额，支付宝无从判断一笔转账是不是被盗号之后做的。

于是，老师傅只好把登录的设备、网络环境等等信息存下来。这样，如果发现异地登录，就很可能是高风险的，你输对了密码也可以不给你转。

就像下面酱，在风控那一层拦住↓↓↓

这条路走不通，坏人就会金盆洗手回去好好上班了吗？不可能，他们会研究更恶毒的办法——诈骗——我让受害者拿自己的手机转不就行了？

就像下面酱↓↓↓

这咋办？支付宝的老师傅冥思苦想，终于一拍桌子，被骗转账和一般的转账并还是有区别！被骗最大的特征就是：会转给一个完全没有关系的账户。

你看，“关系”两个字就这样悄然出现了。

支付宝的老师傅必须找到一种数据库，能够记录“人和人”、“人和设备”、“设备和设备”之间的关系。

于是，从2015年开始，就有一支小分队，秘密研究图数据库 TuGraph（这个名字是后改的，为了便于理解我们就叫这个名字吧）。

图数据库看上去“剪不断理还乱”，其实你只需要知道三样东西：点、边、数据。

所谓点，就是“实体”：一个人、一台手机、一个地址，都是实体。

所谓边，就是“关系”：如果一个人用了一台手机，就把这两个点用边连上；如果一个人转钱给另一个人，也用边把他俩连上。

所谓数据就是：详细记录这个点或边的内容。比如一个人，他的注册身份证号、年龄之类的数据就挂在它的点上；两人之间转账，转账金额就挂在边上。

可用这玩意儿怎么抓坏蛋呢？

也很简单：

1、现在 A 想要转账给 B，那就去查一下 A 和 B 之间有没有关系。
2、假如 A 曾经给 C 转过账，C 又给 B 转过账，系统虽然不知道 A 和 B 具体是啥关系，但足以判断他俩可能在生活中认识。诈骗风险比较低。
3、如果 A 和 B 在图上隔着好远，查了好几跳，都连不上，那这里面就可能有问题。不说一定是诈骗，但必须得重视，继续结合其他信息给风险综合打分。

就像这张图，左边的“AB转账”风险比较低，右边的风险比较高↓↓↓

有没有感觉眼熟？这个找 A 和 B 关系的操作，不就是懦夫警探调查凶案的过程嘛？

看到这你估计已经恍然大悟：懂了！

不，你不懂。

仅仅能查出关系的图数据库等于废物。。。因为我们没考虑“速度”。

假如，现在你准备转5000块给房东，你输入密码，然后支付宝开始转圈，弹出一行字：我们正在查你有没有被骗，别急啊，明天告诉你结果！

你能等吗？就算你能等，房东能等吗？

“20毫秒，是我们每次查询耗时的上限。一般10秒就能完成”洪春涛说。

人眨一下眼，大概要100毫秒，也就是眨眼的功夫，最少够 TuGraph 帮你查5遍，堪称“一眨五次郎”。

但。。。你有没有发现一个 Bug？

查关系，不像在富士康流水线上组装手机那样每个动作都是“固定的”。

有时候 A 和 B 是好基友，一查很快就知道他们关系亲密；有时 A 和 B 关系比较疏远，经过两三个中间人才能把他们联系起来，得查半天。

也就是说，你没法预知这次查询是快是慢。。。

就像下图↓↓↓

那怎么保证图数据库每次查询都遵守这个“时间红线”嘞？

洪春涛一股脑说了九九八十一招，我挑两条比较有趣的讲给你：

首先，得给数据库装个“小脑”。

影响查询速度的情况成百上千，但要说最大的噩梦，就是一个词：“大点”。

咱们普通人用支付宝，大概只会和十个人有转账往来，这算“小点”。

但有的社牛，资金往来有成千上万人。一旦碰到了这样的“大点”，那可要命了，数据库引擎光查这一个点就超过20毫秒了。。。

这咋办？摇人呗！老师傅的方法是，把大点上的查询任务分成十个任务，并行查询。

但是，浅友们上班儿时肯定深有体会，一个任务一旦拆开，就涉及到同事们的分工合作，要是策略安排得不妥当，最后反而混乱、甩锅、死机。

这背后，就需要设计一套强大的并行调度系统，根据当时的实际情况排布各个线程，就像“小脑”里的运动中枢一样，能调动全身肌肉群协调工作。

其次，还得给数据库装个“大脑”。

洪春涛突然问我：查 A 和 B 的关系，你要从 A 出发找 B？还是从 B 出发找 A？还是 AB 一起出发，在中间碰头？

我正在蒙圈中，他公布了答案：不一定。

如果从 A 出发马上会遇到一个大点，从B出发都是小点，那显然从 B 开始查更快。如果从 A 出发走过一跳之后遇到大点，再从B开始走也可以。

但问题是，在开始查询之前，你不可能确切知道哪里会遇到大点。

所以老师傅会做一个精巧设计：让图数据库在最初存储数据的时候，就做好粗略的估算，这个点比较大，那个点比较小，记在小本本上备用。

这样，在执行查询任务前，让“大脑”照着小本本预先做个规划，才不会费儍功夫，所谓“预则立，不预则废”嘛。

话说，这两个“脑”都是查询层面的优化，如果把它们掀开，还会看到更底层的技术。

比如如何优化“存储机制”和“索引机制”，相当于在脑区里怎么摆布这些信息才能最快回忆出来，那些知识太艰深，咱们暂且略过，把有限的篇幅留给更有趣的故事。

看了“懦夫警探追凶”和“支付宝抓骗子”的案例，估计你会有这样的感觉：图数据库是用来抓坏人的。

但我要说，仅仅把图数据库当做抓坏人的武器，虽不能说大材小用，但属实思路太保守了。

接下来我不妨给你提供一些“吹牛素材”——在跟别人吃饭聊天时，你应该怎样把图数据库放在一个宏大的世界观里讲给他听嘞？

（二）数据库的“特斯拉时刻”

话说，人类发展有这么个奇怪的剧本：

发明家总是先发明一个东西的“高级形态”；
然后实干家为了降低成本，只能用“低级形态”把它量产；
然后等到技术进步到某个时刻，一个疯子会冲出来说：咱们已经能量产它的“高级形态”啦！

车就是个典型的例子。

在轿车发明的很长时间里，它都是由电驱动的，设计简单，故障率低。哪怕到了1900年，美国制造的汽车中，电车都有15万辆，油车只有可怜的936辆。

但当时的电池技术实在太落后，开着开着就没电了，实干家福特一看，还是落后的燃油车更适合当下，于是他引入流水线，生产“T型车”，这才开启了油车时代。

后来的故事大家也知道，3C产业发展让电池技术突飞猛进，疯子马斯克突然拍大腿，汽车本该用电驱动啊！！

于是有了特斯拉电动车的爆发。

货币也是一个例子。

太平洋上的雅浦岛有很多石盘，人们用它当货币，但这东西太沉，花钱成了体力活儿，于是大家发明了“记账”。

我给你四分之一个石盘，就让村支书在账本上记一笔，这疙瘩的所有权就转移到你身上了。

可在世界其他地方，人太多，经济规模太大，村支书记不过来，只好转回低级形态——把实物金银/货币作为交换的中间物。

后来的故事大家也知道，计算机系统发展起来，银行借此恢复了货币的高阶形态，重新用“账户记账”这种方式管理每个人的财富。

雅浦岛上的石头货币

数据库也是一个例子。

1970年左右，科学家发明数据库的时候，就长成“图”的样子。

但是 IBM 和 Oracle 一看，您这玩意儿99%的计算机都跑不动啊，不如把数据库拍扁了，起码让一部分人先用起来！这才有了二维“关系型数据库”的崛起。

但今天，计算机的算力、软件的代码基础都已经发生了飞跃，难道我们不该用回数据库的“高级形态”——图数据库吗？

这就是数据库的“特斯拉时刻”。

可是看到这，我猜会有人撇嘴：我就是个打工人，远在天边的数据库高级不高级，跟我有毛关系嘞？

这就要说到数据的本质目的。

没有数据的日子，我们人类茹毛饮血天天打猎也活了几万年。可见数据不是我们生活的必需品。但那个时候人类面临很多飞来横祸，洪水干旱，隔壁野人来袭，根本没有办法抵御。

部落首领冥思苦想，要抵御灾祸，咱得有点儿“预测未来”的能力。

数据的本质目的就是预测未来。

最早的数据是龟甲上的裂痕，最早的数据工程师是大祭司。但他们预测的准确率实在是一言难尽，纯纯的50%。因为他们的数据完全没能拟合真实世界。

最早的数据库

往事越千年，咱们有了数据库，存进去的数据真能拟合世界：

我发了一条微博，数据库里存下了这段话，（大概率）证明我就是有过这个想法；
我给小卖部老板转了20块，（大概率）证明我真买过一次东西。

于是，数据才开始有了预测未来的能力。当数据库里的数据细密交织，组成了完整的体系，马云所说的“DT 时代”也就到来了。

洪春涛告诉我，为了增加预测准确度，需要不断向系统里注入新的维度的数据，并且对更多维度的数据进行联合分析。这时就会发现，旧有的“关系型数据库”的抽象成本会迅速升高。

这里提到了一个高级的生词：抽象成本。

不妨给你举个例子。

在日心说的世界观里，星体围绕太阳做简单的圆周运动；在地心说的世界观里，星球们做着复杂的翻花儿运动。他俩都可以预测星球轨道，但为啥今天我们不用地心说了呢？因为地心说的抽象成本高！

同样预测50天后火星的位置，用地心说的计算量是日心说的成百上千倍。

敲黑板！！如果你不想预测复杂的事情，那两种数据库都一样，甚至在很多基础计算中传统数据库更快。一旦预测复杂的事情，那差距就大！了！去！了！

举个例子：

现在很多公司的领导都喜欢用“BI 看板”——就是老板出道应用题，数据一通算，在看板上呈现答案。

比如，负责营销的老板可能会问这样的问题：

30-35岁的已婚男士中，最喜欢买“杜蕾斯001”的这群人里，他们的媳妇喜欢买什么商品呀？

你看，这问题里涉及复杂关系。如果用一般的数据库，得把好多平面表格集合在一起才能算。

数据工程师熬夜三天掉一把头发然后把结果发给老板，老板看了看说：诶，我突然有了新点子，你再重新给我算一遍喜欢给孩子买泡泡玛特盲盒的爸爸，他们的媳妇更喜欢哪种口红？

如果你是数据工程师，你肯定会说：35岁的秃顶程序员最想买的是订书机，把老板的嘴钉上！

但之所以数据工程师觉得老板可憎，是因为在数据爆炸的时代，他们还在用地心说理论计算50天后的火星位置。。。

那要是用图数据库，这种复杂分析是怎么做嘞？

其实说白了就两步：

1）把老板的话转述成一组可以被计算机理解的“命令”；
2）“大数据引擎”在一整张大图上跑一遍命令，算出结果。

这里提到了“大数据”。

“大数据”当然不是什么新朋友，但我们知道的大数据引擎都是和普通数据库配套的。

图数据库比普通数据库多定义出了一层“关系”属性，原有的大数据系统不能直接算这种关系。这就需要老师傅出手，做一个能和图数据库组CP的“图大数据引擎”。

说到图大数据引擎在蚂蚁内部的诞生故事，还是和坏人有关系。

缅北的诈骗产业园

（三）坏蛋学会了“分身术”

2018年双11开始，支付宝基于图数据库的风控系统上线，每次转账都会查一下“AB关系”。

大批的骗子马上发现：骗钱难度进入了“地狱模式”，如果总用一个账号收钱，行为异常太明显，分分钟会被系统标记为高危，然后封堵。

于是他们开始“进化”，养了一堆账号，不仅每个账号活动的频率降低，金额也被打散了，单独账号的异常特征就弱化了。

这相当于骗子学会了“分身术”！

这个号“不小心”被封了，没关系，用另一个顶上，反正号有的是。

如此，犯罪团伙就变成了软粘的八爪鱼，断了这个爪，还有别的爪↓↓↓

这可咋办？

诶，既然是影分身，就和真正的人不一样。毕竟从关系上讲，控制这堆账户的人还是一个团伙，这些账户总会在某些方面表现出一致的性质。支付宝老师傅要做的就是：找出这些隐秘的规律！

这时，我们就得隆重请上一个新角色：“安全数据分析师”。

分析师干啥呢？

举个栗子，警察蜀黍抓了一个诈骗团伙，然后缴获了他们手上的所有支付宝账号，然后这些账号会给到支付宝的数据分析师，他们就像“神探狄仁杰”，仔细研究：这堆号之间，有怎样的关系模式？然后把这些洞察写成一组识别规则。

至于这些规则具体是啥，我就不举例了，因为这玩意儿说出来你能看到，坏人也能看到。。。

总之，一组规则就像一个“海捕文书”，“衙役”们需要照着这个公文把所有的账户都筛查一遍。这个衙役，就是“大数据引擎”了。

注意，“海捕”一次的工作量可比只查一次AB两点之间的关系要大多了，因为要把所有用户、设备拢共上万亿个点和边都拉网式筛查一遍嘛！

20毫秒，那可是断然干不完了，大概需要几个小时的时间才能通盘算一遍。而这样的计算一般每天凌晨执行一次。

每天一次其实够了。犯罪团伙嘛，比较稳定，不太可能今天你们几个还是团伙，明天就从良了——每天地毯式围剿一遍，足以压制。

左边是分析师的规则，右边是图数据库。两个汇总在图大数据引擎里，算出下面的答案。

这种“狄仁杰+海捕文书+衙役”的组合，就成为了一个经典的图计算模式，也叫“迭代计算”。

迭代计算这玩意儿可太香了，隔壁银行都馋哭了。

当时很多银行来找蚂蚁，想让老师傅帮忙用迭代计算抓坏人。只不过，这些坏人的“坏法儿”不太一样。

比如，某国有大行曾经被犯罪团伙盯上。团伙会在某个小区门口搭个桌子，假装帮用户办信用卡，收集人家个人信息，却把卡寄到了自己的地址，然后用这些卡套现，然后当然就不还了。

银行刚发现几起这样的行为，就警觉了，想把骗子还没来得及套现的信用卡统统找出来，停掉。

但是骗子用了“分身大法”，搞了几十个手机号，十几个地址，接收几百张信用卡。

单纯知道其中一张卡有问题，是没办法根据它预留的地址和电话把几百张卡一锅端出来的。

这时，银行和 TuGraph 的老师傅把数据导入图数据库，然后两边的风控专家（狄仁杰）凑在一起想出了一整套识别规则（海捕文书），交给大数据系统（衙役）去跑，很快符合条件的高危账户就浮现出来，接下来，不仅那些卡都被停了，物理世界的真警察蜀黍也重拳出击抓个痛快！

再比如，银行还会面对一种叫做“连环担保”的风险。

意思就是A公司想向银行借钱，得有人给它担保嘛！

结果B给A担保，C给B担保，D给C担保，E给D担保，F给E担保，A给F担保。绕了一圈结果是“左脚踩右脚”，等于没担保。。。

一般情况下，6度以下的担保被认为是风险很高的，所以，他们的海捕文书就可以这样写：“兹有连环担保风险，凡构成6度以内圆环者，悉数缉拿归案！”

本来某些企业觉得多套几层担保就会天衣无缝，殊不知他们的小动作早就被捕快看得一清二楚。

图里的红圈就构成了连环担保

说到这，你大概能领略图计算的威力了吧？

可是，永远不要低估坏人推陈出新的能力，毕竟他们是真正的“按劳分配”，最有动力去改革。

这不，从2020年开始，一种新的作案方式兴起，我把它称作：“迅雷不及掩耳盗铃式花呗套现”。

套现大家都知道，本来花呗是借钱给他，结果他刷出去的钱又通过某种途径回到他手里，然后这钱就被他花了，花呗很可能就不还了。。。

在图上发现“套现”和发现“连环担保”有点类似，都是找出“圆环”。过去几年，花呗反套现系统也一直是这么干的。

但是！你还记得吧，迭代计算最快要几个小时才能算一次，后来经过优化也得一小时跑一次。

也就是说，如果坏人能在一小时内完成套现的全部操作，他就已经把钱取走了，你再发现就晚了。

坏人们于是搞出了一整套自动化套现服务，先跑整个圆环的前面几步，然后积攒很大的数量，突然完成最后的套现闭环：一个小时别说跑1次，跑100次都可以。

这可咋办？

洪春涛告诉我，当时老师傅被逼无奈，开发出了一种比实时查询（20毫秒）要慢，但比迭代计算（1小时）要快的计算引擎，这就是“流式图计算引擎”（TuGraph-Analytics）。

它的思想也很简单：

我不攒着一块儿算。每一笔转账发生，我都算一步，这样当你完成作恶的最后环节时，我也只需要完成最后一步计算。

这个速度就快多了：1分钟内就能出结果，阻断套现链条。

你看，为了怼坏人，把好人都逼成啥样了？从图数据库本身，到迭代图计算引擎，到流式图计算引擎，不同系统如鳞次栉比的宫殿，依次建立。

正应了那句话：成功需要朋友，巨大的成功需要敌人。。。

不过说到这，我得提醒一下：

人们之所以使用新技术，可不仅仅是馋新技术的效率高，更是因为新技术能做老技术做不了的事情！

我们还拿电动车和货币来解释：

眼下，油车也能开，电车也能开，电车不过就是提速&制动更快。

但往未来看，汽车的终极形态是机器人，要想做出灵活的动作，必须靠电机。

而发动机体系再先进，受限于传动结构的复杂，灵活度也是大幅受限的。

眼下，现金也能用，银行转账也能用，转账不过就是更方便些。

但往未来看，交易会被切到极其细碎，可能一个人/公司会同时和大量的系统交易，每笔交易能低至几分钱。

这种情况现金完全无法应对，必须用记账系统，甚至还要用分布式记账系统和智能合约（即区块链）。

那么，以此类推，图数据库肯定也有些了不得的用法，是传统数据库想都不敢想的，那会是啥嘞？

洪春涛告诉我：“图学习”很可能是答案之一。

（四）图学习：留给人工智能的花园

如今我们身边的大多数任务都是“人机协作”完成的。

但有一个问题不言而喻：人机协作的流程中，“机”越发达，“人”就越成为瓶颈。

举个栗子：饿了么外卖。

商家注册饿了么的时候，会人工填写一堆关键词。比如肯德基，它的关键词可能是：快餐、西餐、薯条、汉堡、可乐。

这样一来，我作为一个用户去搜索这些关键词的时候，对应的商家就会跳出来。比如我搜索薯条，就能搜索出“肯德基”。

可是，人是一种很不靠谱的存在，填关键词的时候，经常想不了这么全面。

假设你在麦当劳打工，负责填写关键词，你写了：快餐、西餐、汉堡、可乐等等，但漏掉了薯条。。。

于是我搜索“薯条”，麦当劳就不会出现，但显然麦当劳有薯条嘛！

这样一来，我少了一种选择，麦当劳丢了一单生意，双输啊。。。

这时，人工智能就可以派上用场！

AI 对图数据库进行推理，发现麦当劳和肯德基连接了很多画像相似的用户，而他们分别都连接了“快餐”、“西餐”、“汉堡”、“可乐”，而肯德基又连接了薯条。

那是不是意味着，我可以大胆地在“麦当劳”和“薯条”之间加上一根连线，让用户可以通过薯条搜索到麦当劳？

再举一个栗子：芝麻信用。

说个真事儿。过去，洪春涛的芝麻信用分很低。这不是因为他干了啥事，而是因为他“没干啥事儿”。

他在家是个甩手掌柜，很少用支付宝，买啥东西都是太太去买，所以太太的芝麻分奇高，有800多。

在图数据库里，洪春涛这个点就是比较“白”的，没有足够数据，就很难评，不知道他是个好人还是坏人，只能先当个坏人打个低分吧。。。

但是，如果交给人工智能，AI 就能通过图数据库给他估算一个分。

大体原理是酱的：洪春涛和太太两个人，在图数据库里的关系很近，他们的登录环境一致，两人又有密切的转账记录。AI 一想，一个芝麻分奇高的人不太可能和一个坏蛋如此亲密互动，所以，洪春涛就沾了太太的光，芝麻分被拉高到了一个体面的程度。

你还记得刚才我们说的，数据的本质目的是预测吧？

而“图学习”，就是让人工智能利用图数据库，对各个维度的空白点位做出“细粒度”的数据预测。

这种预测可以同时发生在上万亿点边组成的信息海洋中，每一朵浪花的细节上。预测之密集，在人类历史上并无先例。

这仿佛摩西劈开红海，是一种神迹。

结论呼之欲出：藉由图学习，人类预测世界的能力可能产生一个飞跃。这件事，靠传统数据库或人类专家手搓，都是决计不可能实现的。

不过，既然叫“图学习”，它预测能力的天花板，就不仅取决于图的水平，还取决于 AI 的水平。

说到这，我们就必须请上今年异军突起的新技术——“大模型”。

小模型可以模拟人在图上做“数据补全”之类的简单脑力劳动；

大模型的凶狠之处在于，它可以在图上模拟人脑的高级脑力劳动——逻辑洞察。

你还记得那个烦人的老板么？他让数据工程师去反复计算不同人群和商品的关系，其实本质是为了找到其中隐藏的逻辑，从而制定商业策略，实现利润目标。

就像那个经典的故事：

超市把啤酒和尿布放在一起，因为知道背后隐藏的逻辑是奶爸会被安排买尿布，他来到货架上如果看到啤酒就会倾向于买，超市销售额就会增加。

如果有一个“大模型助手”，它就可以用这种逻辑思维审视全图，直接建议去调查“特定人群和类目之间的多跳关系”，然后生成精细的促销策略，以达成老板设定的商业目标。

比如他的策略可能是这样的：

我建议，在32岁-35岁在北京海淀区的妈妈中，挑出每个月买了1次盲盒以上的人群；
再从中挑选出浏览过汽车用品的人群；
再从这群人的一度关系人中挑出过去3个月内买过200元以上啤酒的这群，
为他们推荐位于北京昌平区的某个新开的度假乐园的优惠券。

要是能精确至此，想必这个推荐不会对用户造成打扰，更可能是雪中送炭！

普通的 AI 可以补全图，但不一定理解图。要想达到深层的理解，还得靠更大的模型。

但说起来简单，要做出此等聪明的大模型谈何容易。

这种大模型不同于 ChatGPT 这样的通用语言模型，它不仅要掌握逻辑推理能力，还要对图数据库的本质有深刻理解。所以蚂蚁的老师傅们尝试把“自然语言样本”和“图数据库样本”融合在一起训练，这就叫“大图模型”（Large Graph Model）。

虽说大图模型才刚上路，但洪春涛寄予厚望。他的判断来自两个先例：

谷歌，之所以会在世纪之交爆火，是因为当时 MapReduce 让大规模并行计算的成本突然降低，这使得“搜索”这种古老的想象作为一种商业模式首次得以成立。

字节跳动的今日头条和抖音，之所以能在几年前爆火，是因为那时大数据分析的成本突然降低。由此，通过数据对一个人的行为进行动态分析，然后找到他此时最可能喜欢的内容怼在眼前，这种商业模式得以首次成立。

历史可能押韵。

如果图学习（大模型+图计算+图数据库）的成本继续下降，会发生什么呢？

我猜，根据图类型的不同，可能在各个领域出现不同的应用：

大模型加上浓缩了世界知识的超大图（知识图谱），就会产生类似孔子那样“有教无类”的个人老师。
大模型加上蚂蚁擅长的那种金融关系图，那就是能对各种风险精确定价甚至能预测经济危机的精算师。
大模型加上工业设备拓扑图，那就是能自己优化效率、降低工业成本和商品售价的产业链神经中枢。

这样的例子不胜枚举，但背后的基本逻辑很清晰：

一个有能力解释并改造世界的模型，必须和一个有能力体现世界多维细节的数据库相配合，才能发挥出它本来的价值。

当然，为了让历史发生，洪春涛和蚂蚁的老师傅此时必须做一件事，那就是——玩儿命降低图数据库的成本！

（五）图数据库的星火燎原

洪春涛告诉我，目前图数据库主要有三个成本：

1、计算成本。也就是计算所需的硬件和软件。
2、人员成本。也就是懂得图数据库技术栈的老师傅的工钱。
3、使用成本。也就是图数据库和传统数据、AI、大数据等上下游系统对接时的投入。

实话说，目前这仨成本都很高，全有继续下降的空间，但要说空间最大的，最迫切的，其实是“第3条”。

我们不妨把视角拉开，目前在中国，除了蚂蚁集团在图数据库一马当先，还有百度、华为、腾讯、阿里等大厂也宣布了图数据库，此外还有悦数科技、海致星图、创邻科技、枫清科技等创业公司在做图数据库。

百花齐放当然是好事，但各家图数据库的接口标准和查询语句都不尽相同，相当于战国七雄，大家都说不同的方言，用不同的文字。

这会造成啥问题呢？

刚才说过，各行各业用图计算的姿势都不同，图数据库厂商很难自己服务所有行业，需要靠第三方生态伙伴在中间帮忙。

如果各家图数据库的标准不同，生态伙伴今天学会了蚂蚁，明天还得学百度、华为；对客户来说，今天用了你家的图数据库，明天想换成他家的，整个接口都得重来一遍。

折腾的成本巨大，让很多企业望而却步，这是阻碍图数据库飞入寻常百姓家的一座大山。

既然有山，就得有愚公。

TuGraph，作为中国图数据库里最能打的那个，准备参与一下“愚公移山”的历史进程。

2022年，蚂蚁老师傅联合国际标准组织 ISO 帮助制定图数据库的“普通话”——通用查询语言 GQL；

2023年，他们还联合图数据库的国际组织 LDBC，制定了 FinBench 金融图数据库测试标准，其中就定义了标准的数据接口。

FinBench 的标准流程

光靠降低“协作成本”，老师傅还觉得不过瘾，一个更大胆的想法冒出来。。。

2022年，他们直接把 TuGraph 的单机版给开源了！

这不仅可以让有需要的企业直接“零元购”这套顶级的图数据库，还能让更多对图数据库感兴趣的老师傅毫无鸭梨地研究它。

话说，虽然不要钱，企业们也不可能一上来就让图数据库承担重任，这些老师傅也不可能一上来就适应图数据库的思维逻辑，但不可否认，他们都是星星之火。

TuGraph 宣布开源

有趣的是：因为谁都能下载，洪春涛也不知道究竟谁在用。

但在一些偶然的场合，他遇到了一些小伙伴，他们来自小米和米哈游这样有技术激情的公司。

对方告诉洪春涛，自己的公司已经开始用 TuGraph 了。没啥主动安利的情况下，却能在这些优秀企业里生根发芽，这让洪春涛对 TuGraph 的生命力信心大增！

洪春涛给我画了一张图：随着图数据库的成本降低，它能进入的领域会越来越多。

事情的发展，也在逐渐印证这张图。

就在不久前，TuGraph 团队帮蚂蚁内部做了一个和金融本身没那么大关系的事儿——“数据血缘工程”。

故事是酱的：

在蚂蚁业务中使用的传统数据库里，有一些包含了我国的“行政区划”信息。

这些数据来自最初的那张原始表格，但由于各个业务需求不同，后来有的从中提取了一部分使用，有的把别人的表格拿来再引用。

最后的情况变成了，大大小小一万多张表里都含有最初那张表的“基因”。

这本来没什么问题，但是随着国家的发展，行政区划是会变化的。2021年，蚂蚁集团内部决定更新一下最初的那张行政区划表。

麻烦来了，这个动作究竟会对这一万多张表产生啥影响？这一万多张表都重新修改的话，会对系统造成哪些冲击？应该用怎样的顺序替换？

TuGraph 团队帮忙把这些表格的元信息都导入图数据库，用图算法一跑，其中关系，也就是“数据血缘”立刻浮现出来。

血缘显示，其中有两个表格极其重要。后续很多表格都是它的“后代”，于是这两个表格的负责人被邀请进入了项目组，大家在所有表格上引用数据的点位都做好了关联，这边切换，那边与之相关的点位也同步切换。

这样，不仅避免了这次变更潜在的数据冲突，还盘活了数据库之间的血脉，以后再想变更，直接操作就行！

利用类似的思想，TuGraph 团队还帮某档案馆做了一个“档案血缘”方案，源头档案的内容一变，所有相关的引用就瞬间更改。

他们还帮某海关把报关单的内容都放进图数据库里，可以从中发现全球商品的流动特征，还能探测到虚假报关的行为。

他们还帮一家能源集团把电网中的设备拓扑都归纳在图数据库中，模拟其中某些节点出现故障之后对系统整体造成的影响，从而制定更精确的维护策略。

这些应用五花八门，在洪春涛介绍前，我完全无法想象。

“那图数据库到底能用在哪些行业呢？”我刨根问底。

“所有行业，只要图数据库的成本足够低！”洪春涛说，“现在看来，各个行业都在单独的点上尝试，但你站在远处看，这些点逐渐增多，就会连成片。这就是星火燎原的真实过程。”

这是评价一项新技术的 Hyper Cycle，洪春涛认为图数据库所在的位置已经走出了“幻灭之谷”。

他的话让我突然想起了130年前，1893年的芝加哥世界博览会。

那届博览会为了庆祝哥伦布发现新大陆400年，决定使用当时方兴未艾的新技术，电。

主会场中，12万个灯泡同时闪亮，如同白昼。那是人类第一次创造出一个纯电照明的建筑环境，宛如神迹。

而那之后，人类开启了“电”飞入寻常百姓家的汹涌进程，自此历史再不回头。

而电的应用也从“电灯”开始，逐渐进入了取暖、烹调、工业炼化、机械车床，最终它驱动了电子计算机，成为了承载下一代科技浪潮的基石。

如此看来，新一代科技浪潮，不正在我们脚下涌动吗？

（六）怕风险，更怕“从前慢”

2021年，人民日报发表了一篇文章，名叫《高性能图计算：尖端科技下一个前沿》。

其中低调地说了一句： 在我国发展高性能图计算，具备良好的技术基础和现实条件。

亲身经历这段历史，洪春涛当然知道这些“基础和条件”有多么来之不易。

毫不意外，图数据库最早的企业级生态诞生在美国，2007年创业团队 Neo4j 开拓了图数据库的商业应用，但由于当时数据分析需求不够旺盛，随即进入了长达8年的低潮。

到了2015年，数据量开始暴涨，风口来临，彼时中美两国的老师傅们几乎同时大举杀入图数据库，那一波我们的投入丝毫不逊于美国。

之所以中国人这么有信心，源自我们巨大的人口基数，和建立于其上的全世界最大的移动互联网生态。

这场决绝的投入，换回的结果就是：在图数据库和图计算领域，中国一骑绝尘跑在世界前沿，没有任何人卡我们的脖子。

不是不想，而是不能。

其中，清华大学在学术赛道保持领先，蚂蚁在产业赛道冲在最前面。

而在2020年，洪春涛和他的老师陈文光所代表的来自清华的团队加入了蚂蚁集团，学术界和产业界最强的两支队伍会师，成为了中国图数据库的一个里程碑。

这次会师的结果就是：在最新的权威基准测试中，TuGraph 的成绩提升到了之前美国最强的 TigerGraph 的 2.84 倍。

纵然美国的图数据库面对国际市场，能从全世界吸引最强的人才，综合实力还是领先，但是中国图数据库的性能摆在这里，虽说没必要骄傲，但也没理由妄自菲薄。

而我们更该关心的是，怎么找到一个“快进键”，把物理世界中复杂缠绕的数据尽快塞进图数据库这个基础设施，编织出专属于下一个时代的生产力？

这里，仍有一些值得警惕的事实：

在采用图计算的意愿上，中国企业并没有美国企业那么激进。

银行业，就是一个突出的例子。

虽说我们的很多银行都已使用图计算，但却把它作为解决特定风险的专用工具，没有像蚂蚁那样放进每一笔交易的核心流程里。

但由于银行的风控策略更为严格，对企业贷款的资质信用要求很高，许多中小企业相对缺乏帮助判断的信息，在资金获取方面遇到了困难。

这样并非长久之计。

最近两年，国家大力推进普惠金融，鼓励银行加大对小微企业的贷款支持力度，银行业的风控需求也在进一步向深水区跋涉，新技术的应用可能就是一把钥匙。

银行业只是千行百业的代表。在政策的引导下，能源行业、先进制造业、医药、教育都在进行数字化改造，进一步尝试数据分析和洞察。

这些先行者们是否会像核聚变一样点燃中国图计算新一轮爆炸？蚂蚁这群老师傅站在时光的河流岸边，像纤夫一样用微薄之力拉动这一切发生。

遥想当年，就在美国芝加哥世博会开幕时，大洋对岸甲午战争正在酝酿，中国大地风雨如晦，有识之士仍在快步疾行，寻找德先生和赛先生。

而今，头顶的天空碧蓝，我们找不到理由怀念“从前慢”。

毕竟，“车、马、邮件都慢”和“冒着热气的豆浆店”无法载着我们的世界飞速前进，就让它们留在诗句里吧！