一、实验基础概述
图数据库属于非关系型数据库的一种,其核心理论基于图论,通过节点(Vertices/Nodes)、边(Edges)以及属性(Properties)对数据进行建模与存储。相较于传统的关系型数据库,图数据库在处理复杂关联网络(如社交关系链、资金流转路径、知识图谱等场景)中展现出更高的查询效率和更直观的结构表达能力。
TuGraph 图数据库平台简介
TuGraph 是由蚂蚁集团自主研发的高性能图数据库系统,具备强大的单机数据承载能力、高吞吐性能以及灵活的 API 支持,能够同时满足在线事务处理(OLTP)与在线分析处理(OLAP)的需求。本实验采用 TuGraph 提供的 Web 可视化控制台,完成图模型构建、数据导入及多类查询操作。
实验所用数据集说明
本次实验选取了 Elliptic Data Set 中的两个子集作为分析对象:
- Transactions Dataset(比特币交易数据集):包含交易节点信息(txs_classes.csv)和交易之间的流向关系(txs_edgelist.csv)。每个节点记录了交易 ID 和类别标签(非法、合法或未知),边则表示比特币资金的实际流动方向。
- Actors Dataset(钱包地址数据集):包括钱包地址节点(wallets_classes.csv)及其间的转账关系边(AddrAddr_edgelist.csv),用于研究不同分类钱包间的资金交互模式。
二、TuGraph 平台启动流程
- 登录阿里云计算巢服务管理后台,启动 TuGraph 实例服务。
- 进入对应的服务实例页面,申请并激活免费试用权限。
- 使用默认管理员账户 admin 及预设密码登录系统。
- 认证成功后,跳转至 TuGraph 欢迎界面,即可开始创建新的图项目。
三、Transactions Dataset 的图建模与数据导入
(一)图结构设计
- 新建一个名为“作业11hzz”的图项目。
- 定义点类型为 Transactions,用于表示每一笔交易记录。
- 添加属性 txId,设定类型为 INT32,并标记为主键(Primary Key)。
- 增加 class 属性,类型为 STRING,用于标识该交易是否属于非法、合法或未知类别。
- 创建边类型 Transfer,连接起点与终点均为 Transactions 类型的节点,体现资金从一笔交易流向另一笔的过程。
(二)数据导入执行过程
- 上传文件 elliptic_txs_classes.csv 导入节点数据。将源文件中的 txId 列映射到模型中的 txId 字段,class 列对应 class 字段。最终成功载入 203,769 条交易节点记录。
- 上传椭圆交易边列表文件 elliptic_txs_edgelist.csv 进行边数据导入。将 txId1 映射为起始节点 ID(SRC_ID),txId2 映射为目的节点 ID(DST_ID)。共成功导入 234,355 条边数据,完整还原资金流动拓扑。
四、Actors Dataset 的图建模与数据导入
(一)模型构建步骤
- 创建点类型 actor,代表参与交易的钱包实体。
- 配置属性 address,类型为 STRING,设置为主键,对应实际钱包地址。
- 添加 class 属性,类型为 INT32,用于区分钱包所属类别。
- 定义边类型 edge,连接两个 actor 节点,反映地址之间的转账行为。
- 设置该边的起点和终点类型均为 actor,形成完整的转账网络结构。
(二)数据导入情况与特殊说明
- 上传 wallets_classes.csv 文件,成功导入 65,535 个钱包地址节点。
- 继续上传 AddrAddr_edgelist.csv 文件以导入边数据,建立地址间转账关系。
尽管图模型的设计与操作流程正确无误,但需注意所使用的两个数据文件并非完全匹配的子集。边文件涵盖了大规模的转账活动记录,而当前导入的点文件仅覆盖其中一小部分参与者地址,因此存在大量边指向未被加载的钱包节点的情况。
五、Cypher 查询语言操作示例
(一)针对 Transactions Dataset 的操作演示
1. 基础查询(Basic Query)
目标:检索并展示 10 个被标记为“非法(Illicit)”的交易节点。
实际意义:在反洗钱应用场景中,可快速识别已知的高风险交易行为,辅助监管与预警机制。
2. 数据增删操作(Create & Delete)
目标:模拟新增一笔可疑交易记录,在核查后将其删除。
实际意义:体现图数据库对动态数据维护的支持能力,例如人工录入最新发现的黑名单交易,并在确认无效后及时清除。
- 显示成功创建了一个 txId 为 999999 的新节点。
- 随后执行删除命令,结果显示 1 个节点被移除,验证清理操作生效。
3. 复杂查询(Complex Query)
(后续内容可根据需要扩展,此处保留原结构占位)
资金链路追踪:识别非法资金的流动路径
核心目标是追踪“非法交易”中流出的资金,探索其两跳范围内的转移路径。这一过程在图数据库中被称为资金链路分析,是反洗钱场景下的关键能力。通过该技术,可以有效识别“脏钱”的去向,判断其是否已渗透至看似合法的账户体系中。
Actor 数据集操作示例
基础数据检索
从数据集中筛选出类别为“2”的10个钱包地址。此类操作常用于快速定位特定类型的账户,例如已知的交易所钱包或高活跃度用户地址,为后续深入分析提供起点。
节点管理:创建与移除
模拟系统中账户的生命周期行为,包括新增和删除钱包地址,以测试图数据库在动态环境下的稳定性与准确性。
(1)新增节点
向图中添加一个用于测试的虚拟钱包地址,验证写入操作的正确性。
(2)移除节点
在确认测试无误后,将该临时节点从图数据库中删除,确保数据环境的清洁。
深度路径查询
旨在发现从“类别3”钱包到“类别2”钱包之间的资金流动路径。该查询的实际意义在于揭示潜在的资金来源关系——特别是当未知身份的钱包(Class 3)频繁向可识别实体(如交易所等 Class 2 账户)进行转账时,可能暗示着可疑的资金归集行为,是金融风控中的重要分析维度。



雷达卡


京公网安备 11010802022788号







