Cleanlab筹集2500万美元帮助解决人工智能模型的数据混乱

Cleanlab的创始人柯蒂斯·诺斯卡特、安尼什·阿塔利和乔纳斯·穆勒希望解决“垃圾输入、垃圾输出”的数据问题。

这家初创公司基于一个流行的开源项目,用于修复人工智能模型中的数据问题,现在云巨头Databricks成为了它的投资者和合作伙伴。

当OpenAI的ChatGPT在豆腐食谱中添加巧克力草莓Cheerios时,或者亚马逊的Alexa宣布2020年大选从唐纳德·特朗普那里窃取时,同样的事情发生在两种截然不同的聊天机器人身上:在内部,有一个有缺陷的数据集,充斥着重复、不正确或误导性的数据点。

对于发现这些错误的机警用户来说,这种被称为幻觉的错误可能看起来是随机的。但它们背后有一个听起来很简单的计算机科学原理:“垃圾输入,垃圾输出。”把互联网上每一张香蕉的照片都输入到人工智能模型中,它不会天生知道你是否也放了一张好奇乔治的照片;这通常是标记软件和人工承包商要过滤掉的工作。但在足够大的尺度上,几乎不可避免地会有东西漏出来——模型就会生成一个长着尾巴的水果的图像。

成立两年的Cleanlab是由三位麻省理工学院的博士共同创立的,该公司声称提供的软件可以自动修复垃圾。该公司首席执行官兼联合创始人柯蒂斯•诺斯卡特在接受《福布斯》采访时表示,向他们的产品扔一组原始的、未标记的数据,它会在第一次扫描时自动标记高达90%的数据。无论是否有标记,Cleanlab还会标记它认为最有可能是重复或错误的数据点和标签,帮助用户更快、更便宜地进行清理,以获得更准确的最终结果。

“现实情况是,每一个数据驱动的解决方案——世界从来没有像现在这样受到数据驱动——都将受到数据质量的影响,”诺斯卡特说,他在亚马逊、b谷歌、Meta和微软工作期间遇到过这个问题。“对此没有解决方案,没有公司填补这一空白,这是荒谬的。”

自2017年以来,Cleanlab软件的免费开源版本已经可用;迄今为止,来自大通、b谷歌和特斯拉等公司的团队都是它的用户。诺斯卡特及其联合创始人乔纳斯•穆勒和安尼什•阿塔利直到今年7月才公布了他们的付费企业版Cleanlab Studio。如今,Cleanlab在一轮炙手可热的融资中又筹集了2500万美元,至少有一家风投公司在诺斯卡特旧金山住所附近的咖啡店里扎堆,试图参与这笔交易,但最后未能成功。Menlo Ventures和TQ Ventures共同领投了首轮融资,对Cleanlab的估值为1亿美元。

Databricks加入了这轮融资,并与刚刚起步的Cleanlab合作。这家公司在福布斯云计算100强榜单上排名第二,市值430亿美元,为AT&T和丰田等大公司提供数据基础设施。今年早些时候,Databricks使用Cleanlab对API提供的OpenAI达芬奇模型进行了微调,结果发现,在没有任何额外资源的情况下,该过程将错误减少了37%,将测试准确率从65%提高到78%。

咨询公司伯克利研究集团通过使用Cleanlab Studio为其法律客户节省了约3000万美元的成本,Northcutt说。

正如丹格所说,beling公司是“新进入者”。他们认为,Cleanlab可以做很多标签器能做的事情,但不能反过来做。像Databricks这样的测试表明,Cleanlab可以使模型在发布后更有价值,而不仅仅是在培训期间。墨菲补充说:“人们将对这些模型更有信心,因为(Cleanlab)也可以测量输出。”

当然,诺斯卡特和Cleanlab团队需要说服企业,他们不能仅仅通过使用他们的软件的免费版本就从这些改进中获益,即使他们与资金雄厚的基础设施领域的竞争对手竞争,这些对手可能会希望更多地进入他们的地盘。(另一个将Databricks视为盟友的理由。)

诺斯卡特在玩更长远的游戏。他已经在研究如何让Cleanlab的小型开源模型与人工智能巨头维护的大型模型相抗衡。他正在考虑法学硕士浪潮达到顶峰后可能会出现什么模型。

Northcutt表示:“目前,自动驾驶汽车创新、企业采用生成式人工智能和实时分析的最大障碍是缺乏精心策划的准确数据。”“无论未来出现什么模型,它都将取决于数据,而Cleanlab将在那里。”

 

 

PHP Code Snippets Powered By : XYZScripts.com