Cleanlab:从学术见解到实际人工智能应用
Jonas Mueller、Curtis Northcutt和Anish Athalye在麻省理工学院的博士研究中发现了一个惊人的事实:在计算机视觉、自然语言和音频领域,最广泛使用的10个数据集充斥着错误。他们在很多地方发现了错误的标签——一辆货车被贴上了移动房屋的标签,蘑菇和意大利香肠披萨被贴上了面团的标签,键盘被误认为是空格键。实现这些目标的意义至关重要:错误的数据会危及技术的可靠性,导致人工智能产生“幻觉”或误导。
这三人并没有求助于精心筛选数据的艰巨任务。相反,他们开发了一种算法来检查数据的准确性,结果非常引人注目。在发表了一项学术研究并将他们的算法作为开源代码发布之后,硅谷的科技公司开始敲他们的门。
“有很多公司向我们寻求企业支持和附加功能,我们决定围绕它开展业务。今天,它已经成为一个流行的开源库,用于以数据为中心的人工智能,被各种公司的成千上万的数据科学家使用。”
——乔纳斯·穆勒
他们的公司名为Cleanlab,提供能够自动发现和修复真实数据中的错误的软件。它简化了费力、容易出错和昂贵的数据清理过程,使企业能够自信地将原始数据转化为可靠的模型和见解——无需编码。它自动标记原始数据,同时精确定位潜在的错误和冗余。
Cleanlab最近获得了2500万美元的a轮融资,该公司正在帮助开创以数据为中心的人工智能时代,这是一门专注于系统地提炼数据以支持人工智能系统的学科。如果数据不准确或不可靠,人工智能就会遭殃。有了干净的数据,人工智能的效果要好得多。
清理数据集的重要性对大大小小的公司都有实际意义。例如,一家电子商务公司依赖于不准确或不可靠的数据,可能会对其产品进行错误的分类,导致产品出现在错误的网页上,并导致糟糕的客户体验。
Cleanlab加入LIFT实验室加速器
2023年秋天,Cleanlab在康卡斯特nbc环球LIFT实验室加速器:企业人工智能项目中度过了六个星期。与其他九家初创公司一起,Cleanlab与康卡斯特的技术和商业领袖合作,了解全球媒体和技术公司面临的实际挑战和机遇。
Cleanlab团队发现,学习对康卡斯特的领导者来说最重要的人工智能和数据用例特别令人兴奋。
穆勒说:“从康卡斯特内部学习是一种不可思议的经历,它帮助我们更好地了解如何为公司提供最有意义的价值,以改善业务成果。加速器简化了与康卡斯特数据科学家会面的过程,并帮助我们了解将精力集中在哪里,以便我们的产品继续达到目标。”
尽管企业解决方案是Cleanlab路线图的重要组成部分,但他们设想的未来是,任何公司,无论规模或行业,都可以使用Cleanlab来提升其人工智能工作流程,并绕过复杂算法或编码专业知识的陡峭学习曲线。
穆勒说:“我们的目标是使人工智能民主化,让任何人都能用它来解决复杂、紧迫的问题。”“这些数据集可能存在巨大的缺陷,这对专家来说是显而易见的,但对没有接受过正式培训的人来说却是一个很大的障碍。我们希望我们的软件能够帮助业务分析师或非技术人员利用人工智能的强大力量来改善业务成果。”
来源:Liftlabs