Cleanlab:從學術見解到實際人工智能應用
Jonas Mueller、Curtis Northcutt和Anish Athalye在麻省理工學院的博士研究中發現了壹個驚人的事實:在計算機視覺、自然語言和音頻領域,最廣泛使用的10個數據集充斥著錯誤。他們在很多地方發現了錯誤的標簽——壹輛貨車被貼上了移動房屋的標簽,蘑菇和意大利香腸披薩被貼上了面團的標簽,鍵盤被誤認為是空格鍵。實現這些目標的意義至關重要:錯誤的數據會危及技術的可靠性,導致人工智能產生“幻覺”或誤導。
這三人並沒有求助於精心篩選數據的艱巨任務。相反,他們開發了壹種算法來檢查數據的準確性,結果非常引人註目。在發表了壹項學術研究並將他們的算法作為開源代碼發布之後,矽谷的科技公司開始敲他們的門。
“有很多公司向我們尋求企業支持和附加功能,我們決定圍繞它開展業務。今天,它已經成為壹個流行的開源庫,用於以數據為中心的人工智能,被各種公司的成千上萬的數據科學家使用。”
——喬納斯·穆勒
他們的公司名為Cleanlab,提供能夠自動發現和修復真實數據中的錯誤的軟件。它簡化了費力、容易出錯和昂貴的數據清理過程,使企業能夠自信地將原始數據轉化為可靠的模型和見解——無需編碼。它自動標記原始數據,同時精確定位潛在的錯誤和冗余。
Cleanlab最近獲得了2500萬美元的a輪融資,該公司正在幫助開創以數據為中心的人工智能時代,這是壹門專註於系統地提煉數據以支持人工智能系統的學科。如果數據不準確或不可靠,人工智能就會遭殃。有了幹凈的數據,人工智能的效果要好得多。
清理數據集的重要性對大大小小的公司都有實際意義。例如,壹家電子商務公司依賴於不準確或不可靠的數據,可能會對其產品進行錯誤的分類,導致產品出現在錯誤的網頁上,並導致糟糕的客戶體驗。
Cleanlab加入LIFT實驗室加速器
2023年秋天,Cleanlab在康卡斯特nbc環球LIFT實驗室加速器:企業人工智能項目中度過了六個星期。與其他九家初創公司壹起,Cleanlab與康卡斯特的技術和商業領袖合作,了解全球媒體和技術公司面臨的實際挑戰和機遇。
Cleanlab團隊發現,學習對康卡斯特的領導者來說最重要的人工智能和數據用例特別令人興奮。
穆勒說:“從康卡斯特內部學習是壹種不可思議的經歷,它幫助我們更好地了解如何為公司提供最有意義的價值,以改善業務成果。加速器簡化了與康卡斯特數據科學家會面的過程,並幫助我們了解將精力集中在哪裏,以便我們的產品繼續達到目標。”
盡管企業解決方案是Cleanlab路線圖的重要組成部分,但他們設想的未來是,任何公司,無論規模或行業,都可以使用Cleanlab來提升其人工智能工作流程,並繞過復雜算法或編碼專業知識的陡峭學習曲線。
穆勒說:“我們的目標是使人工智能民主化,讓任何人都能用它來解決復雜、緊迫的問題。”“這些數據集可能存在巨大的缺陷,這對專家來說是顯而易見的,但對沒有接受過正式培訓的人來說卻是壹個很大的障礙。我們希望我們的軟件能夠幫助業務分析師或非技術人員利用人工智能的強大力量來改善業務成果。”
來源:Liftlabs