OORT数据集Kaggle首页曝光,预示去中心化和众包AI训练数据方案正蓬勃发展。
OORT的AI图像数据集在Kaggle的多个类别中成功登上首页,显示市场对高质量、社区驱动的训练数据需求日益增加。
OORT开发的人工智能训练图像数据集在谷歌的Kaggle平台上取得了显著的成功。
OORT的“Diverse Tools Kaggle”数据集清单于4月初发布后,迅速在多个类别中登上首页。Kaggle是谷歌旗下的一个在线平台,专注于数据科学和机器学习的比赛、学习和协作。
加密AI项目OpenLedger的核心贡献者Ramkumar Subramaniam在接受Cointelegraph采访时表示:“Kaggle首页排名是一个强有力的社会信号,表明该数据集成功吸引了数据科学家、机器学习工程师和相关从业者的积极参与。”
OORT创始人兼CEO Max Li向Cointelegraph透露,该公司“观察到了令人鼓舞的参与指标,这验证了通过分散式模型收集的训练数据确实具有早期市场需求和相关性”。他补充道:
“来自社区的自发兴趣,包括积极使用和贡献,清晰地展示了像OORT这样分散、社区驱动的数据管道如何在不依赖中心化中介机构的情况下实现快速分发和广泛参与。”
Li还表示,OORT计划在未来几个月发布多个数据集,包括车内语音命令数据集、智能家居语音命令数据集以及旨在提升AI驱动媒体真实性验证能力的深度伪造视频数据集。
Cointelegraph独立核实确认,上述数据集在本月早些时候已成功在Kaggle的通用AI、零售和购物、制造业以及工程等类别中登上首页。截至发稿时,该数据集在5月6日的一次无关更新和5月14日的另一次更新后已不再保持这些排名。
虽然这一成就值得认可,Subramaniam向Cointelegraph表示:“这并不是实际应用或企业级质量的决定性指标。”他指出,OORT数据集的独特性不仅体现在排名上,更在于其数据背后的来源和激励机制。他进一步解释道:
“与可能依赖不透明流程的中心化供应商不同,透明的、基于代币激励的系统能提供可追溯性、社区共同管理以及持续优化的可能性,只要建立适当的治理结构。”
人工智能风险投资机构Generative Ventures合伙人Lex Sokolin表示,尽管他认为这些成果并非难以复制,但“这确实证明了加密项目能够利用去中心化激励机制来组织具有经济价值的活动。”
人工智能研究机构Epoch AI的数据显示,人类生成的文本AI训练数据预计将在2028年耗尽。压力已经大到投资方正在促成交易,以获取AI公司使用受版权保护材料的权利。
关于AI训练数据日益稀缺以及这可能制约该领域发展的报告已经流传多年。虽然合成(AI生成)数据逐渐应用并取得成效,但人类生成的数据仍被视为优选,因为这种高质量数据能够培养出性能更佳的AI模型。
在AI训练图像领域,情况愈加复杂,许多艺术家有意破坏训练工作。为保护作品不被未经授权地用于AI训练,Nightshade工具使创作者能够“毒化”他们的图像,从而严重影响模型性能。
Subramaniam指出:“我们正步入一个高质量图像数据逐渐稀缺的时代。”他进一步强调,图像投毒技术的广泛应用使这一挑战愈加严峻:
“随着图像隐蔽技术和对抗性水印等AI训练投毒方法的兴起,开源数据集面临数量和可信度双重挑战。”
对此,Subramaniam表示,可验证且由社区贡献的激励数据集“比以往任何时候都更具价值”。他认为,这类项目“不仅能作为替代方案,还将成为数据经济中AI对齐和数据溯源的重要支柱。”
相关推荐:Kima加入Mastercard沙盒以实现稳定币卡片充值