论文部分内容阅读
比特币以自由和保护隐私著称,其交易数据公开,隐私保护则依赖于地址匿名性,故地址关系在比特币隐私研究中非常重要。如今,包括混币算法在内的比特币隐私增强技术的发展正使传统地址关系分析算法正变得难以使用。本论文从交易维度研究混币存在情况下比特币地址关系分析问题。首先分析比特币数据结构与链上数据特点,完成了针对地址关系分析任务的链上数据精简算法,交易和地址维度的比特币链上数据追溯算法和可视化算法,其中交易追溯方法把传统追溯中的交易构成的有向无环图转换成树,最后本论文在交易追溯的基础上提出了用于检测混币交易的使用LSTM交易树分类器(LSTM-TC)和用于判断地址关系的LSTM的地址关系判断模型。LSTM-TC混币检测算法帮助传统的基于启发式规则的地址聚类算法排除混币交易,可以得到更好的地址关系结果。虽然目前实用的地址聚类方法几乎都使用了混币检测算法,但使用的检测算法都基于手工设计的规则,难以适应新出现的混币方法,而基于深度学习的LSTM-TC在一定程度上解决了该问题。在这一方法的研究中,本论文首先使用成熟的混币检测算法在比特币早期链上交易数据中标记出混币交易,制作了数据集用于模型训练。又结合比特币交易数据结构特点,提出了比特币交易树特征提取算法,提取了比特币交易树的序列特征,并使用LSTM分类模型完成比特币混币交易鉴别。最后在数据集上训练并在相对于训练集时间更晚的交易集上评估模型,并与其他方法做了比较,实验结果表明本论文提出的基于监督学习的混币鉴别方法有较高召回比例,并在抽样实验中显示有优于另一种高召回比例方法的精确率。基于LSTM的地址关系判断算法则聚焦于一个地址的全部关联交易,通过手工设计的特征提取器提取比特币地址特征,再使用深度学习模型判断两个地址间的关系。传统的地址聚类方法仅根据一个交易得出交易相关的多个地址之间的关系,而该方法根据一个地址所有关联交易得出地址本身的特征,对于有较多交易的地址来说,该方法在理论上能利用更多信息。本论文使用比特币早期链上数据创建了地址关系数据集,用于模型训练与测试。然后提出了基于LSTM的比特币地址关系判断模型。实验表明地址关系判断模型有一定准确率,且可以用于对少量地址关系的快速判断。本论文提出的比特币地址关系分析方法可以用于实现比特币地址聚类等地址去匿名化的相关任务,进一步帮助实现比特币资金追踪,交易性质判断等应用,可使用在金融监管,非法资金调查等场景。反过来,本论文提出的方法也为比特币隐私增强技术特别是混币技术的改进提供一些启发。