Cleanlab籌集2500萬美元幫助解決人工智能模型的數據混亂
Cleanlab的創始人柯蒂斯·諾斯卡特、安尼什·阿塔利和喬納斯·穆勒希望解決“垃圾輸入、垃圾輸出”的數據問題。
這家初創公司基於壹個流行的開源項目,用於修復人工智能模型中的數據問題,現在雲巨頭Databricks成為了它的投資者和合作夥伴。
當OpenAI的ChatGPT在豆腐食譜中添加巧克力草莓Cheerios時,或者亞馬遜的Alexa宣布2020年大選從唐納德·特朗普那裏竊取時,同樣的事情發生在兩種截然不同的聊天機器人身上:在內部,有壹個有缺陷的數據集,充斥著重復、不正確或誤導性的數據點。
對於發現這些錯誤的機警用戶來說,這種被稱為幻覺的錯誤可能看起來是隨機的。但它們背後有壹個聽起來很簡單的計算機科學原理:“垃圾輸入,垃圾輸出。”把互聯網上每壹張香蕉的照片都輸入到人工智能模型中,它不會天生知道妳是否也放了壹張好奇喬治的照片;這通常是標記軟件和人工承包商要過濾掉的工作。但在足夠大的尺度上,幾乎不可避免地會有東西漏出來——模型就會生成壹個長著尾巴的水果的圖像。
成立兩年的Cleanlab是由三位麻省理工學院的博士共同創立的,該公司聲稱提供的軟件可以自動修復垃圾。該公司首席執行官兼聯合創始人柯蒂斯•諾斯卡特在接受《福布斯》采訪時表示,向他們的產品扔壹組原始的、未標記的數據,它會在第壹次掃描時自動標記高達90%的數據。無論是否有標記,Cleanlab還會標記它認為最有可能是重復或錯誤的數據點和標簽,幫助用戶更快、更便宜地進行清理,以獲得更準確的最終結果。
“現實情況是,每壹個數據驅動的解決方案——世界從來沒有像現在這樣受到數據驅動——都將受到數據質量的影響,”諾斯卡特說,他在亞馬遜、b谷歌、Meta和微軟工作期間遇到過這個問題。“對此沒有解決方案,沒有公司填補這壹空白,這是荒謬的。”
自2017年以來,Cleanlab軟件的免費開源版本已經可用;迄今為止,來自大通、b谷歌和特斯拉等公司的團隊都是它的用戶。諾斯卡特及其聯合創始人喬納斯•穆勒和安尼什•阿塔利直到今年7月才公布了他們的付費企業版Cleanlab Studio。如今,Cleanlab在壹輪炙手可熱的融資中又籌集了2500萬美元,至少有壹家風投公司在諾斯卡特舊金山住所附近的咖啡店裏紮堆,試圖參與這筆交易,但最後未能成功。Menlo Ventures和TQ Ventures共同領投了首輪融資,對Cleanlab的估值為1億美元。
Databricks加入了這輪融資,並與剛剛起步的Cleanlab合作。這家公司在福布斯雲計算100強榜單上排名第二,市值430億美元,為AT&T和豐田等大公司提供數據基礎設施。今年早些時候,Databricks使用Cleanlab對API提供的OpenAI達芬奇模型進行了微調,結果發現,在沒有任何額外資源的情況下,該過程將錯誤減少了37%,將測試準確率從65%提高到78%。
咨詢公司伯克利研究集團通過使用Cleanlab Studio為其法律客戶節省了約3000萬美元的成本,Northcutt說。
正如丹格所說,beling公司是“新進入者”。他們認為,Cleanlab可以做很多標簽器能做的事情,但不能反過來做。像Databricks這樣的測試表明,Cleanlab可以使模型在發布後更有價值,而不僅僅是在培訓期間。墨菲補充說:“人們將對這些模型更有信心,因為(Cleanlab)也可以測量輸出。”
當然,諾斯卡特和Cleanlab團隊需要說服企業,他們不能僅僅通過使用他們的軟件的免費版本就從這些改進中獲益,即使他們與資金雄厚的基礎設施領域的競爭對手競爭,這些對手可能會希望更多地進入他們的地盤。(另壹個將Databricks視為盟友的理由。)
諾斯卡特在玩更長遠的遊戲。他已經在研究如何讓Cleanlab的小型開源模型與人工智能巨頭維護的大型模型相抗衡。他正在考慮法學碩士浪潮達到頂峰後可能會出現什麽模型。
Northcutt表示:“目前,自動駕駛汽車創新、企業采用生成式人工智能和實時分析的最大障礙是缺乏精心策劃的準確數據。”“無論未來出現什麽模型,它都將取決於數據,而Cleanlab將在那裏。”