行進中國|黃浦江畔,有家AI“教材”定制工廠
在上海的一家基層醫院里,一臺體積接近登機行李箱大小的設備正悄然改變著醫生的工作方式。這臺醫療語料終端不僅能完成臨床信息錄入、病歷自動生成,遇到疑難問題時還能提供??漆t生級別的輔助診斷能力。
這臺設備背后的專業知識的集成者,是一家成立時間不足一年的企業——上海庫帕思科技有限公司。

7月26日,2025年世界人工智能大會在上海開幕。顧海民攝
上周,全球人工智能熱浪滾滾,匯聚在上海舉辦的世界人工智能大會。從“程序員們的游戲”到全民熱議的衣食住行話題,AI早已滲透到了人類生產生活的方方面面。
當大多數人的目光聚焦于算力、算法時,位于上海黃浦江畔徐匯西岸“模速空間”的庫帕思卻將焦點放在了人工智能的另一關鍵環節——高質量語料數據。
這家由上海市信息投資股份有限公司牽頭,聯合人民網等11家單位共同組建的企業,正致力于成為中國首家專業人工智能語料公司,打造基于世界知識體系和價值對齊的大模型語料“超級工廠”。

庫帕思位于徐匯西岸“模速空間”。錢尤祎攝
何謂“語料”?
所謂語料,某種意義上就是AI大模型的“教材”,是經過精心篩選、清洗和標注的高質量訓練數據,包括文字、圖片、聲音等多種形態,專門用來教會AI大模型理解人的思想以及物理世界。缺乏語料,模型訓練就會變成“無米之炊”;如果只有低質量數據,就可能讓訓練成本大幅飆升。
有統計顯示,對大模型創業企業而言,目前花在語料上的成本超過企業運營開銷,僅次于算力支出。語料作為戰略資源,其價值和短板都在大模型熱潮中越來越清晰。正是在這樣的背景下,上海市委市政府部署組建了庫帕思公司,它成為國內第一家專注AI語料的戰略性功能平臺企業。
庫帕思CEO黃海清介紹,庫帕思自2024年3月運營以來,短短幾個月就在行業內首次完成了語料戰略平臺“四梁八柱”的搭建。這個體系被稱作“1125”語料工作框架,包含了1個語料基座、1個語料運營平臺、2大戰略基礎體系以及5種可持續發展能力。

庫帕思搭建起語料戰略平臺“四梁八柱”。錢尤祎攝
黃海清說,這一框架的核心是“采、洗、標、測、用”五位一體的工具體系。每天,在庫帕思平臺上,數百個AI自動算子會按照工程師們對語料的設計,對數據進行多道加工。目前,庫帕思面向基礎大模型及行業垂類大模型已經語料化了眾多高質量語料數據集,覆蓋了多模態、金融、教育、醫療、工業、文旅、城市治理、具身智能、自動駕駛以及科學智能等10多個行業。
這樣的高質量語料數據供應體系,正給行業帶來積極改變。比如,在基礎模型領域,一些創業公司因為庫帕思的存在,開始精簡自己的語料團隊,從而將有限的精力和資金集中在算法層面。
隨著庫帕思在人工智能產業中的不斷實踐,語料作為戰略資源,其價值和短板都在大模型熱潮中越來越清晰。

黃海清在AI超級聯賽上海分會場發言。顧海民攝
在醫療領域,庫帕思與上海市衛生健康委員會、市疾病預防控制局合作,發布了上海市衛生健康行業語料庫(臨床醫學)1.0版和上海市衛生健康行業語料庫(公共衛生)1.0版。臨床醫學語料庫覆蓋100多個二、三級??瓶颇?,適配智能化就醫咨詢、門急診分診、輔助診療等近20種應用場景,語料規模達5TB。公共衛生語料庫則聚焦基礎資源、業務資源、主題資源三大類,細分至傳染病動態監測、慢性病及其危險因素等61個科目。
在具身智能領域,庫帕思聯合國地中心、漕河涇園區等多家企業啟動了具身智能語料專項工程。該工程一期著力打造生產伴隨、物理場遙操作、仿真合成等3種語料數據采集模式,聚焦工廠、醫療、零售、辦公、家居等12類場景,覆蓋動作技能250余項,構建起規模達5000萬條的具身智能語料數據庫。
上海市經信委副主任張宏韜前不久在接受采訪時表示,上海已全面戰略布局人工智能大模型產業,加速推進“模塑申城”行動方案,為大模型提供強大的基礎底座賦能和豐富的應用場景支持。

AI賦能千行百業超級聯賽海報。錢尤祎制圖
就在7月19日,AI賦能千行百業超級聯賽啟動。在北京、上海、浙江杭州、廣東深圳、香港特別行政區、曼谷、吉隆坡等7個城市,來自科研院所、知名企業代表也共同參與啟動儀式。
在上海分會場,黃海清表示:“庫帕思將持續支持行業垂類大模型和智能體的發展,一起共創這些行業高質量語料數據的標準與數據集建設,支持更多的中國基礎大模型和行業大模型出海?!保ɡ罹?、軒召強、馬作鵬)
分享讓更多人看到
- 評論
- 關注
































第一時間為您推送權威資訊
報道全球 傳播中國
關注人民網,傳播正能量