《数字中国发展报告(2023年)》显示,我国数据生产总量达到32.85ZB,为国产大模型的爆发提供了丰富的“底层原料”。算力、数据、算法、场景,是决定大模型能力的核心要素,随着大模型发展逐渐由“通用”走向“垂直”,数据的质量和规模越发重要。业内专家认为,未来一个模型的好坏,20%由算法决定,80%由数据质量决定。高质量数据是提升模型性能和专业性的关键。
建设高水平行业数据集、加速行业数据流通交易,是增强高质量数据供给的必由之路。浪潮卓数大数据董事长张帆指出,当前高质量中文语料资源短缺问题初现端倪,且随着时间推移,优质数据的获取难度将进一步加大。《数据要素×三年行动计划(2024-2026年)》实施后,国家鼓励科研机构、龙头企业开展行业共性数据资源库建设,打造高质量大模型训练数据集,提升数据供给水平。
“我们一直强调以数据治理为突破口提升数据质量。”张帆表示,工欲善其事必先利其器,浪潮卓数大数据基于完善的数据资源体系,通过自主研发的标注工厂系统,结合自有的数据治理模型工具,智能化提升数据治理的质量和效率,形成高质量语料训练数据集,支撑多模态融合的数字化场景。
行业大模型“术业有专攻”,在面向行业的“封闭场景”中,大模型所需的多场景优质数据集并不容易获得。解决了高质量数据“供得出”后,还要确保“流得通”,引导企业开放数据,鼓励市场力量挖掘商业数据价值,为行业大模型成长提供充足“养料”。
尽管我国拥有海量数据资源,但是数据“孤岛”和“烟囱”问题依然严峻。像浪潮卓数大数据这样本身拥有丰富数据资源又通过平台开放的企业,在打破数据壁垒中起到的作用日益明显。依托天元数据网和各地签约的数据交易所,浪潮卓数大数据可提供电商、生活服务、企业、农业、资源能化等10大类数据的API、数据集、数据报告、数据应用等的购买和个性化定制服务,旨在解决供需不匹配、数据难获得等制约大模型进一步发挥赋能效用的痛点。
随着“底座”能力的提升,浪潮卓数大数据还依托自主研发的公共数据授权运营平台、数据资产服务平台,在确保全流程数据安全可靠、可信、可控的前提下,构建上下游合作的数据流通产业链,为数据要素市场建设积极贡献力量。
例如此前助力德州财金集团打造的“玻璃温室番茄生产数据集”数据产品,不只完成数据资产入表、盘活了企业数据资源,还利用数商身份进行供需撮合,实现首笔数据交易。越来越多沉淀在企业内、产业端的高质量数据,逐渐“浮出水面”,推动大模型迭代升级。
知易行难,加速破局尚需多方合力。据张帆介绍,让更多企业拥有高质量的数据,打造行业或特定领域、任务的专用大模型,实现生产力革新和产业升级,已成为目前浪潮卓数大数据聚焦的重要方向。
-
高质量数据供给,让行业大模型应用落地更“有料”《数字中国发展报告(2023年)》显示,我国数据生产总量达到32.85ZB,为国产大模型的爆发提供了丰富的“底层原料”。算力、数据、算法、场景,是决定大模型能力的核心要素2024-08-21
-
浪潮卓数大数据&标贝科技,战略合作签约!8月6日,浪潮卓数大数据产业发展有限公司(简称“浪潮卓数大数据”)与标贝(青岛)科技有限公司(简称“标贝科技”)在青岛市崂山区电子政务和大数据中心的见证下,正式签署战略2024-08-21
-
浪潮卓数大数据助力完成亳州市数据资产入表首单近日,在浪潮卓数大数据助力下,安徽省亳州市蒙城城建集团完成“城市公交数据”的数据治理、合规确权、资产登记、质量评估、资源入表等工作,标志着亳州市实现了数据资2024-08-21
-
赋能数字济宁建设!浪潮卓数大数据联合浪潮产投与济宁城投签署战略合作协议8月13日,浪潮卓数大数据产业发展有限公司(简称“浪潮卓数大数据”)联合山东浪潮资本投资有限公司(简称“浪潮产投”)与济宁城投控股集团有限公司(简称“济宁城投”)签署2024-08-21
-
香水礼盒装,承载品牌形象和产品价值,让您感受品牌的独特魅力当装饰香水礼盒时,每一个细节都承载着品牌形象和产品价值的传达。香水礼盒的设计不仅仅是为了包装产品,更是为了营造一种奢华感和仪式感,让消费者在接触礼盒的一刹那2024-08-21