[量子位智库]:中国AIGC数据标注产业全景报告

发布时间:2025-11-21 18:14

中国AIGC数据标注产业全景报告

Panoramic ReportofGenerative AI Data LabelingIndustryinChina 2023.11杨净量⼦位智库QbitAIInsights 数据标注,正迎来关键时刻。作为AI认识世界的起点,数据标注本质上是将现实世界信息结构化、数字化,充分发挥数据信息的价值。 序⾔ ⼤模型时代到来,AIGC众多垂直场景落地,以及通⽤智能、具⾝智能等前沿领域探索,与⾼质量、专业化的场景数据密不可分,数据标注从劳动密集型加速朝着知识密集型转型,⾏业壁垒进⼀步提⾼。 作为底层基础服务,数据标注贯穿⼤模型全⽣命周期(训练测试、评估验证和应⽤迭代)。⼀⽅⾯,牵涉关键Know-how,更多⼤模型公司/AI企业选择⾃建标注团队和管线;另⼀⽅⾯,上下游合作关系将更为紧密和耦合,专业数据服务提供商更多机会将在垂直领域,帮助企业完成私有化部署。 机遇与挑战并存。合成数据作为新衍⽣赛道,潜在市场空间巨⼤。与此同时,数据标注标准难以统⼀、数据处理流程尚未规范,⾼学历多领域多专业成为标注⼈才的硬指标。 ⼤模型时代下的数据标注!" !$AIGC数据标注三⼤影响因素 !%数据标注产业竞争格局/市场规模 数据标注代表玩家案例集!& 数据标注是AI认识世界的起点 数据标注是将原始数据进⾏加⼯处理,⽐如分类、拉框、注释、标记等操作转换成机器可识别信息的过程。 国内数据标注⼚商,⼴义称之为基础数据服务提供商,通常需要完成数据集结构/流程设计、数据处理、数据质检等⼯作,为下游客⼾提供通⽤数据集、定制化服务、数据闭环⼯具链等。这也是本次AIGC数据标注全景报告的研究对象。 n⽂本: 词性标注、分类标注、情绪标注、命名实体识别、语义标注、意图标注等; 图像分类、语义分割、实例分割、拉框、OCR转写等; n⾳频:语⾳识别、声纹识别、语⾳转写等; 数据标注中的⼆⼋定律 n视频:⽬标跟踪、⾏为识别等; 通常在一个AI项目中,数据准备工作需要80%时长,模型训练和部署仅占20%。 n3D点云 ⼤模型时代下的数据标注 ⼤模型范式涌⼊数据标注,⾃动化标注⻔槛⼤幅降低 上市公司股价狂飙,创业公司融资加速 以SAM模型为代表的图像分割模型开源;GPT-4、GPT-4V为代表的⼤模型也被验证在⽂本、图像领域标注具有可⾏性,并衍⽣出专⻔做数据标注的⼤模型,⼤幅降低⾃动化标注⻔槛。国内不少数据服务商进⾏相关⼤模型研发,部分产品已经发布: 海天瑞声是国内唯⼀⼀家AI数据上市公司,今年2⽉以来股价受ChatGPT热潮曾⼀度狂飙,截⾄11⽉10⽇股价较年初上涨59.75%。 创业代表公司融资情况 星尘数据|22年12⽉5000万A轮标⻉科技|23年4⽉超亿元B2轮整数智能|23年6⽉数千万Pre A轮柏川数据|23年7⽉千万元天使轮曼孚科技|23年9⽉数千万B轮恺望数据|23年4⽉战略融资23年9⽉数千万Pre A轮 •海天瑞声:数据⽣产垂直⼤模型(研发阶段)•曼孚科技:⾃动驾驶数据标注视觉⼤模型(已完成研发)•⻰猫数据:⾃动驾驶⼤模型AutopilotGPT(发布)•商汤:明眸SenseAnnotation⾃动化数据标注平台(发布)•标⻉科技:烘焙师⼤模型Baker-GPT(发布) ⼤模型数据解决⽅案多处开花,以⼀站式、定制化服务为主 智能驾驶新感知范式,BEV+Transformer是机遇也是挑战 围绕⼤模型开发全⽣命周期(包括预训练、监督微调、RLHF、红队测试、基准测试等),专业数据服务商、⼤模型企业、AI公司等各⽅都拿出相关数据解决⽅案,⼤部分以⼀站式、定制化服务为主。 作为最具代表性应⽤场景,智能驾驶迎来新感知范式:以BEV+Transformer为代表的四维感知替代掉2D+CNN为代表的⼆维感知⽅案,给数据服务⼚商带来更多机遇与挑战,包括不限于标注场景难度⼤、数据量产能⼒要求⾼等。⽬前国内部分⼚商给出了数据闭环⼯具链和解决⽅案等。 •云测数据:⾯向垂直⾏业⼤模型数据解决⽅案•星尘数据:星尘COSMO⼤模型数据⾦字塔解决⽅案•澳鹏Appen:AI聊天反馈和基准测试两⼤解决⽅案•⽕⼭引擎:⽕⼭⽅⾈(涵盖数据服务模块)•百度:⾸个⼤模型数据标注基地 AIGC重塑数据标注 量⼦位智库认为,数据标注正迎来重新洗牌的关键时刻,有四⼤关键趋势: 1、数据标注要求从客观到主观,很难建⽴统⼀标准 ⼤模型的开发范式决定了⼤模型数据标注对⾃然语⾔要求要求很⾼,包括排序、改写、多轮对话、评估等操作,难以依靠客观的评价体系,⽐如准确率、效率等。 2、⾼学历多领域⼈才成刚需,缺⼝或达百万 本科以上多领域多专业开始成为标注⼈才的硬指标,标注⻆⾊也随着⼤模型全⽣命周期更为细分,⽐如AI训练师、模型精调师、指令⼯程师等。 3、产业链重构,⼤模型公司/AI企业涌⼊ ⼤模型Know-how涉及到数据处理流程的设计,⼤模型公司/AI企业开始⾃建数据标注团队和数据处理管线,甚⾄对外输出服务,产业链重新洗牌。 4、国内百亿级市场规模,合成数据增速最⾼ 量⼦位智库预计,国内AI基础数据服务市场规模将达百亿规模,约占全球市场10%份额。其中合成数据作为衍⽣出来的新赛道,存在巨⼤市场空间,增速超40%。 需求变化:与⾏业场景强相关,高质量数据需求长期且持续 ⼤模型时代的到来,正加速推动⼈⼯智能开发从以模型为中⼼朝着以数据为中⼼的⽅向转变。 ⾼质量数据服务需求贯穿⼤模型全⽣命周期。 ⼴泛认知⾥,⼤模型是以数据为中⼼的产物。数据数量和质量很⼤程度决定着⼤模型能⼒的上限。 n以模型为中⼼:迭代模型,数据相对固定。n以数据为中⼼:关注数据本⾝,模型成为了数据的「容器」。 数据处理流程设计涉及⼤模型Know-how,直接决定⼤模型性能好坏。 尤其后两个阶段需要专业⼈⼠⽣成数据或对数据进⾏改写或排序,最终形成符合⼈类标准(⽐如专业逻辑、核⼼价值观等)⾼质量数据。 ⽽后随着⼤模型持续地实时更新迭代、朝着多垂直领域落地,尤其通⽤智能、具⾝智能等相关探索,如何快速扩展到更多真实边缘场景,⾼质量场景数据也将成为刚需。 除此之外,实时保障输出内容的安全合规,也远⽐以往更受重视。从训练、迭代到应⽤落地,数据服务贯穿⼤模型全⽣命周期。 企业端客⼾需要⻓期且持续的数据服务,产业链上下游供应关系远⽐以往更为紧密和耦合。 处理流程侧变化:标准从客观到主观,⾼学历多领域成⼈才硬指标 数据标注从劳动密集朝着知识密集型转变。 业务变化:合成数据成新衍⽣赛道,潜在市场空间巨⼤ 所谓合成数据,即是⽤AI⽣成数据⽽⾮真实产⽣,能够替代真实数据来训练、测试和验证⼤模型。⽬前主要在⾃动驾驶、机器⼈、⽣物医药等领域应⽤。英伟达Meta亚⻢逊等全球科技巨头均有相关布局(投资、收购等)。OpenAICEOSamAltman曾放⾔:未来所有数据都将变成合成数据。 量⼦位智库预计,合成数据将成为未来增速最快赛道,年增⻓率可达45%。 合成数据的优势&特点 企业案例 应⽤场景 1、降本增效 降低数据获取成本,⽣成数据⾃带⾼质量标注,缓解“数据荒”问题。 2、数据可定制 应⽤可扩展性强,灵活度⾼,可覆盖更多边缘、⻓尾场景。 3、隐私安全 群核科技Coohom Cloud(群核云)作为⽬前为数不多提供室内场景数据服务的代表⼚商,能针对不同应⽤场景合成2D、3D数据集,客⼾覆盖全球,服务多家海内外科技巨头公司,并于英特尔在产研等开源性项⽬上进⾏深度合作。 天然规避掉数据隐私安全合规的问题。 供应链变化:重新洗牌,⼤模型公司/AI企业涌⼊ ⼤模型公司/AI企业⾃建数据处理管线,对外输出⼤模型数据解决⽅案,传统产业链重新洗牌。部分⼚商还具备云服务能⼒,同数据服务打包输出,更易建⽴起客⼾之间的⼝碑和信任,具备竞争优势。 三⼤影响因素:以技术+场景聚合的⻜轮效应 ⼀看技术能⼒ 数据标注作为AI底层服务,最本质是为客⼾降本增效。持续迭代技术能⼒的企业将有机会脱颖⽽出,包括不限于以下⼏点: n数据闭环⼯具链的智能化⽔平n对⼤模型/算法Know-how的理解n数据⼯程化能⼒、数据基础设施建设n…… 三看⻜轮效应 n数据标注仍具备⻜轮效应;n新创业公司⼊局⻔槛进⼀步提⾼;n专业数据服务商更多机会将在垂类场景,帮助企业完成私有化部署;n对外输出数据服务的⼤模型公司/AI企业也存在竞争优势。 市场竞争格局 我国数据标注⾏业企业竞争格局 数据标注⾏业传统依靠渠道、⼈⼒等形成的低成本竞争优势将被重塑,数据需求⽅将更看重数据质量、场景多样性和可扩展性。基于以上原因,量⼦位智库将从数据基础设施、场景资源两个⽅⾯来分析⽬前的业内玩家分布及现状。 •整数智能•恺望数据•柏川数据•博登智能•卓印智能 第⼀象限:有技术有场景的明星公司 该象限存在两种情况:第⼀种是模型层公司本⾝有⼤模型技术范式以及场景落地经验积累,可快速输出数据解决⽅案,与云服务打包输出建⽴信任;第⼆种则是主要以技术驱动的明星企业,⼤部分拥有数据闭环⼯具链,再结合⼏年来⾏业经验,在⼤模型浪潮下易受到企业⽤⼾⻘睐。 第⼆象限:有强技术⽀撑的创业新势⼒ 该象限主要聚焦在近两年创⽴的创业公司,主要以⾃动驾驶场景作为切⼊点,再覆盖到AIGC及其他领域。他们饱受资本市场认可,以恺望数据为例,⼀年半时间就是完成了三轮融资。 第四象限:场景壁垒更为深厚的⾏业玩家 该象限着更为深厚的⾏业数据壁垒,可为下游⽤⼾提供⾼质量数据集或拥有⼤模型数据标注团队,以海天瑞声为例,不仅是LIama2的唯⼀中国伙伴,还发布超⼤规模中⽂多轮对话数据集DOTS-NLP-216,合作企业超810家,覆盖全球近200个主要语种及⽅⾔,有近20年⾏业深耕。 国内基础数据服务百亿市场规模 ⼈⼒标注(2017年前) 知识密集(2025年后) 重新洗牌(2023-2025年) 平台/⼯具标注(2017-2022年) 以 ⾃ 动 驾 驶 为 代 表的场景爆发; ⼈ 机 协 同 关 系 进 ⼀步 耦 合,⼈ ⼒ 更 多承担关键决策⻆⾊; 以 训 练 任 务、算 法模型为导向;简单图像标注为主。 数据质量驱动; 产 业 链 重 新 洗 牌,更 多 企 业 参 与 数 据标 注,供 应 合 作 关系紧密; ⼈ ⼒ 标 注 ⽆ 法 满 ⾜数 据 需 求,⾃ 动 化标注兴起; 市 场 竞 争 格 局 趋 于稳定。 n【⼈⼒标注】关键节点:2007年,李⻜⻜团队启动ImageNet,借助亚⻢逊众包平台完成图像分类和标注来训练机器学习算法。数据标注从此拉开序幕。 n【平台/⼯具标注】关键节点:2017年,以数据驱动的深度学习成为⾏业共识,⾃动驾驶⼤爆发,国内外初创公司涌现,数据标注迎来庞⼤的市场需求。 需求推算:作为AI底层基础服务,始终依托于⼈⼯智能的发展,约占⼈⼯智能市场份额10%左右。⽬前⼤模型垂直领域落地仍处于探索阶段。 n【重新洗牌】关键节点:2023年,以ChatGPT为代表的⼤模型涌现,更⾼质量、专业化的数据标注成为刚需。 典型样本:海天瑞声市占率达12.9%,上半年营收⽐去年同期增⻓翻番。 n【知识密集】关键节点:垂直⼤模型落地加速,数据处理范式、标准基本确定。未来机器将满⾜⼤部分标注需求,⼈⼒将承担关键决策任务。 百度智能云 百度智能云数据众包,依托百度10余年AI数据经验、产品技术能⼒和国内产值规模领先的单体数据标注基地,具备数据“采、标、存、管、训”⼀体化的服务能⼒,根据特定领域、特定场景的客⼾需求与委托,可提供数据采集、标注、加⼯等处理服务,为客⼾交付标准化、结构化的服务成果。当前,百度智能云升级⼤模型数据服务能⼒,在海⼝市建设全国⾸个专业⼤模型数据标注基地,专业⼤模型数据标注师达数百⼈,⼈员本科率达100%。 ⼤模型评估服务:全⾯评价应⽤表现,洞察短板,牵引优化 ⼤模型标注服务: ⼈员、⼯具、质控、研发多管⻬下,保证⾼质⾼效 洞察与优化 ⼈类反

网址:[量子位智库]:中国AIGC数据标注产业全景报告 https://m.mxgxt.com/news/view/1886148

相关内容

[量子位智库]:中国AIGC数据标注产业全景报告
2024全球AIGC产业全景图谱及报告重磅发布
向量数据库=AIGC基石?让子弹飞一会儿
酷克数据参编《金融业数据库创新发展报告》(2024)正式发布!
华孚时尚计划投资上虞华尚数智中心AIGC智算中心项目 开辟智能算力产业赛道
《2025中国数据智能产业图谱1.0版》重磅发布
2023《中国时尚都市指数报告》发布 广州时尚产业实力位居全国第一
这份数据报告,全面剖析老挝经济发展——东博智库《国别经济研究报告——老挝》发布
AIGC行业资讯
2024年度《中国虚拟数字人影响力指数报告》发布

随便看看