Skip to main content
QUICK REVIEW

[论文解读] Trustless Machine Learning Contracts; Evaluating and Exchanging Machine Learning Models on the Ethereum Blockchain

A. Besir Kurtulmus, Kenny Daniel|arXiv (Cornell University)|Feb 27, 2018
Blockchain Technology Applications and Security参考文献 8被引用 107
一句话总结

本文提出 DanKu 协议,一种基于以太坊的去信任系统,用于通过哈希数据集和链上评估来招募、训练、评估和支付机器学习模型。它讨论在以太坊上部署 ML 合约的实现、激励、威胁模型以及实际考虑因素。

ABSTRACT

Using blockchain technology, it is possible to create contracts that offer a reward in exchange for a trained machine learning model for a particular data set. This would allow users to train machine learning models for a reward in a trustless manner. The smart contract will use the blockchain to automatically validate the solution, so there would be no debate about whether the solution was correct or not. Users who submit the solutions won't have counterparty risk that they won't get paid for their work. Contracts can be created easily by anyone with a dataset, even programmatically by software agents. This creates a market where parties who are good at solving machine learning problems can directly monetize their skillset, and where any organization or software agent that has a problem to solve with AI can solicit solutions from all over the world. This will incentivize the creation of better machine learning models, and make AI more accessible to companies and software agents.

研究动机与目标

  • 介绍一个在以太坊区块链上用于交换机器学习模型的去信任市场协议。
  • 定义 DanKu(Dan iel + Ku rtulmus)合约协议及其五阶段过程。
  • 展示加密哈希、数据集随机化和链上评估如何实现公平支付。
  • 讨论在以太坊上实现 ML 合约的激励、威胁模型和实际考虑因素。

提出的方法

  • 将 DanKu 合约(DKC)定义为一个实现五阶段生命周期的以太坊合约:初始化、提交、测试数据揭示、评估和定案。
  • 使用带有随机数的哈希数据组和 sha3-keccak 哈希来确保数据完整性并防止篡改。
  • 使用前一个区块哈希作为种子,随机将数据组分成训练集和测试集。
  • 提供一个简单神经网络的 forward_pass 实现,以演示链上评估。
  • 实现一个评估函数,使用所选指标(如准确率)来对参与者提交的模型进行打分。
  • 通过允许对每个模型进行评估以及局部/链下评估选项,来应对燃气成本和网络考虑。

实验结果

研究问题

  • RQ1去信任的分散式协议如何在以太坊区块链上安全地招募、训练和评估机器学习模型?
  • RQ2哪些机制能够确保公平支付并防止主办方或参与者在 ML 模型竞赛中的舞弊?
  • RQ3在 EVM 上执行 ML 模型的实际限制(燃气成本、数据存储、数学运算)有哪些,以及如何缓解?

主要发现

  • DanKu 协议使基于链上评估结果的自动支付成为可能,促进匿名、去信任的 ML 模型竞赛。
  • 对数据集进行带随机数的哈希处理,并使用区块哈希进行数据分组分区,降低主办方操控和彩虹表攻击的风险。
  • 通过逐模型评估,可提交和评估模型的方式降低过多提交和燃气上限风险。
  • 存在显著的实际考虑因素,包括数据存储成本、缺乏浮点运算以及在燃气限制内的模型执行时间等。
  • 该协议讨论了潜在扩展,如同态加密、IPFS/ Swarm 用于数据存储,以及 GPU 挖矿套利的影响。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。