海天瑞声董事长贺琳:为大模型“火箭”加燃料
■相关公司:海天瑞声(SH688787,火箭股价89.26元,海天市值53.85亿元)■核心竞争力 :具备标准化数据集产品规模化生产能力,瑞声燃料累计完成超过1300个自有知识产权的董事大模训练数据标准化产品的建设,在全球企业中稳居前列;较早地布局并建立了多语种能力。长贺■机构眼中的型加公司:国内AI训练数据龙头提供商 ,自动驾驶业务打开成长空间■所属概念:数据服务 人工智能 AIGC每经记者 可杨 每经编辑 董兴生11.2公里/秒 ,火箭是海天火箭能够成功摆脱地球引力束缚,飞离地球的瑞声燃料速度。而瞬间的董事大模燃料燃烧所提供的推动力,是长贺帮助火箭一次又一次加速直至进入外太空的助力。在与《每日经济新闻》记者交流时,型加海天瑞声董事长贺琳觉得 ,火箭作为一切人工智能技术最上游的海天数据 ,就是瑞声燃料人工智能这艘火箭的“燃料” 。海天瑞声正是一家生成“燃料”的公司。海天瑞声是国内最早投入AI训练数据的专业服务商之一 ,2023年,不断翻涌的大模型浪潮将这家公司推至资本市场的聚光灯下 。而身处潮水之中 ,贺琳对未来的思考依旧谨慎。大模型狂热 :初印象非常惊艳 ,但对预期“审慎乐观”2023年初,贺琳在海天瑞声公司年会上的发言稿,80%由ChatGPT完成。“非常的惊艳,有点不(敢)相信。”这是贺琳对ChatGPT的初印象,“当然,也有不尽如人意的地方,我觉得这才是我们要努力的方向。”ChatGPT的出现,让这家数据公司突然站到了资本市场舞台中央 。2023年开年以来,海天瑞声股价一路走高,3月一度涨至191.96元/股 ,较其2021年8月上市时翻了一番 。而海天瑞声方面,则已多次在投资者互动平台发布提示 ,称公司与OpenAI没有合作,也尚不能预期大模型业务将带来多少收入 。“年初,我们还在仔细观察、论证这个技术到底对数据有什么样的需求。”贺琳认为,合适的入局时机应该是当这项技术能够真正在行业中落地的时候 ,这意味着其有真正的应用场景,而非伪场景。“我们要确定这个需求是真的,且有人会为这个需求买单 ,这才是一个正常的商业逻辑。”同时 ,当行业落地时刻到来 ,数据的需求量也会迎来大规模提升 。“这给公司带来的上升空间,我认为是非常乐观的,(目前)我们还是抱着乐观审慎的态度去看 ,去跟踪,去研究这项技术。”“判断一个行业 ,我们会更深刻地去想这个行业到底需要什么样的数据 ,只有想清楚这件事 ,我们才会走过去,我们当初对自动驾驶领域的布局就遵循了这个逻辑。”贺琳介绍 。布局自动驾驶行业是海天瑞声在2021年定下的战略方向,在贺琳看来,自动驾驶赛道已经符合这个判断逻辑。从L2到L4 ,自动驾驶已经有相当多的应用落地,同时 ,自动驾驶的数据需求量十分巨大。她判断,自动驾驶是一个人命关天、对安全要求非常高的技术 ,它需要大量数据来打磨 ,去覆盖各个不常见的场景来保证安全性 ,因为任何极端天气或极端场景都可能导致误判。“怎么避免?就需要大量的数据去训练 ,让模型接触到更多长尾的场景来提高它的安全性。”今年4月18日,海天瑞声正式推出其专为自动驾驶场景设计的全栈式数据标注平台“DOTS-AD自动驾驶标注平台”。数据需求增加背后:系统性差距依旧存在贺琳曾就职于中国科学院声学研究所,从事语音识别 、语音合成 、汉语语言理解 、语音心理测试等方面的研究工作。成立于2005年的海天瑞声,最初诞生于贺琳在这份工作中捕捉到的行业痛点。“我们当时在课题组其实也会遇到(缺少)数据的问题 ,解决办法就是工作人员,加上研究生、博士生 ,自己来做数据 。”尽管彼时实验室的数据量相对较少,但也已经算是一项繁琐的工作 。随着技术的发展,智能语音从实验室走向大规模应用阶段,更多场景的覆盖需求,意味着数据需求随之大规模增加。与此同时,在与一些就职于大型企业或研究机构的前同事交流时,贺琳发现,大家都在关注数据的问题。“(大家)认为数据是一个非常大的瓶颈,阻碍他们技术的落地。所以我就在想 ,那是不是可以由我出来做这件事情,帮助大家解决这个困难。”时至今日,贺琳觉得 ,彼时促使她创业的瓶颈依旧存在。在她看来 ,数据的需求是跟着技术的发展而变化的,随着技术在各个行业中落地 ,就会有更多的数据需求爆发。“像现在大模型起来 ,很多人都认为,数据差距是一个造成系统性差距的非常重要的原因,所以大家认为数据还是很重要的要素 ,这个瓶颈依然存在。”不同的是 ,贺琳创业之初,国内竞争对手少 ,海天瑞声得以在市场快速突围。而如今,国内已经出现一批新的数据公司,先发优势成为当下数据公司核心竞争力的基础。“其实 ,这个行业有很多的技术壁垒和‘know-how’,也是需要不断打磨项目,才能去沉淀自己的技术、学会各类‘knowhow’的 ,这是靠项目积累出来的 ,而不是短期能很快积累起来的。”海量数据如何最终成功支撑起庞大参数的大模型运行 ?需要首选了解一个概念——数据集。贺琳介绍 ,数据集的产生是一个非常复杂的过程,其中包括设计阶段、采集阶段 、处理阶段以及最后的质检阶段 。在设计环节,需要先去了解数据集是为了解决哪个问题,这个问题需要什么样的数据 ,需要多大的量,需要什么样的场景,以及采集的样本、规模 、内容 ,包括采集的设备、标注的规范等;采集环节则是按照设计的方案,到大千世界采集,有可能是声音 ,有可能是图像、图片,又或是手写的字 、道路的场景。采集完成后则需要进入清洗、标注环节 。最后生产出的数据集需要通过双层的质检流程,最终才能生产出一个合格的数据集。这其中 ,清洗规则的好坏、标注的准确性都会极大地影响数据集的质量 ,进而影响模型的效果 。贺琳举例说,海天瑞声的大模型数据清洗率是5% ,即清洗出来正确的数据仅仅占原数据的5%,这也印证了数据清洗环节的重要性。而标注的流程则主要是解决准确性和一致性问题,“我们通常说95%、98%或者是99%,不同的准确率对模型训练的结果有非常大的影响”。“数据的清洗和标注流程对于模型的质量至关重要,它们可以提高数据的质量和准确性,帮助模型更好地去学习 ,也为模型的评估奠定了一个很好的基础。”贺琳表示 。贺琳认为 ,高质量的数据包括了数据的丰富度,场景的丰富度,数据的准确性、一致性等 ,这都是衡量高质量数据的标准 。她也认同,高质量数据的提供,需要高质量人工的支持。“有一些高质量的数据,尤其是行业数据 ,确实需要更高层次的人去处理 。因为我们也了解到 ,像OpenAI这样的公司,它背后也有一个很强大的数据处理团队,他们要把对行业的‘know-how’或者是更高层的一些知识灌输到数据里 。”她表示 。浪潮的下一步 :离开人工 ,实现智能“有多少智能,就有多少人工 。”这句话依旧得到大部分人的认同 。在海天瑞声这家“燃料”制造商 ,优质“燃料”的诞生,同样需要最了解“火箭”的人来把控。贺琳介绍,海天瑞声的管理层除拥有比较好的学术背景外,也都有在外企或大厂等机构的工作、管理经验。“他们以前是数据的使用者,加入公司以后,他们非常知道数据的使用者需要什么样的数据,这可以让他们更快速地对市场有预判 ,也会更好地跟业界交流 。”她同时坦言 ,为不同行业提供的数据,需要具备不同行业专业知识的人来处理。“但把规则定下后,可能通过一些训练,让基础的人员能具备这样的训练能力。”在贺琳看来,“有多少智能就有多少人工”是一个误解。“确实 ,这个行业有很多的人力,但人力是在技术的支撑下做这些事 ,没有技术支撑,可能人力需要现在的10倍都不止。所以,我们这种综合性的数据服务商一直都在追求用更自动 、更智能的方式来完成数据的任务 ,不断解放人力 。”贺琳希望,能一步步减少人工对人工智能的参与,大模型的浪潮 ,正在加速实现这个目标。“让计算机自动处理数据,永远都是我们的追求。”据她介绍,公司也在探讨未来的两大工作方向,一个是打造一批针对通用领域、垂直领域 ,且具备单模态和多模态属性的、供给大模型使用的数据集产品。另外,海天瑞声也在计划启动数据生产垂直大模型的研发项目,希望用大模型技术来支撑数据的生产 。“大家都说大模型将给众多垂直行业带来重大积极影响,其实数据处理本身也是一个垂直行业,我们希望用大模型的能力来更自动化地把数据处理这件事情做好。”“人工智能的背后是人工”也是有可能发生改变的 。“现在背后依然确实需要很多的人工 ,但是我们一直在尽量想办法减少人工 。包括加入很多算法,提高对数据做预标注的准确率 ,准确率越高,人工参与的程度越低 。”但贺琳也坦言,这件事并不容易。“其实 ,如果真的把这个事都做成了,人工智能就完成了 。因为不需要人的介入 ,相当于它处理的东西都跟人想的是一样的 。”但另一方面,当技术达到一定突破后 ,伦理、法规 、安全等问题就会出现 ,如何解决这些问题 ,也是今后整个人工智能行业面临的难题。新的变革契机:多模态需求将推高行业门槛每一次的火箭升空,都需要大量的燃料助推 。贺琳认为,当人工智能技术迎来新的变革时,对数据提供商来说就是一次契机 。“我觉得可能也是根据一些需求 ,比如像苹果手机的siri出来以后,大家就会认为在语音上有一些突破,这些数据的需求就会暴增。”贺琳觉得 ,在整个人工智能行业,数据就像人类学习知识时使用的教科书 ,“你的教科书越全面,信息越准确,学习的结果就会越好 ,其实机器也是一样的”。她认为,数据集本质上就是人类把自己对大千世界、万事万物的一些认知和判断方法加载到数据上,然后让机器去学习,使机器得出来的对事物的判断结果更加趋近于人类。在她看来 ,这就是数据公司的价值。而在大模型的热潮之下,多模态的能力成为一个关键词。贺琳表示,多模态数据是未来的一个方向 。“多模态的数据里蕴含了更多更丰富的信息 ,对机器做判断也会提供更多的信息来源,但多模态的数据(获取)的难度也非常大 。”她进一步介绍,首先,多模态数据要求的量很大,合规取得这些数据的难度就会更大;其次,多模态数据采集的设备也非常昂贵,对数据公司的财务能力是一种考量。此外,多模态数据对齐的问题、对齐的标准等,都是多模态数据的难点。贺琳认同一点,多模态能力会导致数据公司的入门门槛提高 。“包括我们可能还要去做一些数据生成技术,用我们的一些单一形态的数据来合成多模态的数据,这都要求公司有更高维度的研发能力。”目前,贺琳依旧认为,数据这个方向是海天瑞声未来的定位 ,因为这个领域要做的事情太多了 。“随着技术的发展进入千行百业,每一个行业都需要认真地去了解这个行业的‘knowhow’是什么、如何解决这个行业的一些关键痛点 。那么多行业呢,我们有足够大的空间去拓展 。”而深入行业,则需要公司本身有一定的研发能力,同时 ,在进入行业时 ,需要有行业专家的参与,通过真实的项目打磨,进而逐渐积累 。“这不是个一蹴而就的事情 ,需要一个长期持续的过程 。”她表示。贺琳相信,通用人工智能终将有一天会实现,但这也需要一个过程,即便技术达到了 ,还有伦理的问题、安全的问题、合规的问题。这些都解决了之后,如何解决行业的问题,也有很长的一段路要走。而在这条路上 ,她认为 ,数据公司将会扮演越来越重要的角色 。在这个过程中,算法可能会相对趋于稳定,但仍需大量的、类型迥异的数据对算法进行训练,才能解决行业的问题。翻译搜索复制每日经济新闻
相关推荐
-
5-0,2-1!英超狂欢!轰10球,卫冕冠军逆转+曼城落后榜首4分
-
第七届业余高尔夫超级联赛全国总决赛收杆 东莞老鹰队成功卫冕从世界冠军沦为AV女优,她怎么堕落成这样?
-
创意蛋糕店雷霆版本全攻略,大赛配方材料与殿堂挑战,一篇讲清楚《家有儿女》中明目张胆的穿帮镜头,导演是把观众当傻子吗?
-
足协杯决赛定3队命运!2队盼上海申花赢球,山东泰山1外援成关键“一尿成名”任素汐:上半身是平凡,下半身是贪婪,又丑又性感
-
长江后浪推前浪,纽卡斯尔联6:1大胜热刺小学生作文《爸妈半夜的隐秘》,画面感太强,老师看后忍不住了
-
“方盒子”才是男人的浪漫——哈弗猛龙全国潮改派对引领改装新风潮回顾“一尿成名”任素汐:上半身平凡,下半身贪婪,丑和性感相结合
- 最近发表
-
- 错失绝平良机 青岛海牛客场1-2不敌上海上港她是央视最穷酸的主持人,工作22年不涨工资,43岁才凑够首付买房
- 曲棍球——天下女子锦标赛:甘肃队取患上季军
- 哈弗猛龙新配色+共创版车型亮相,“个性化”被玩明白了“一尿成名”任素汐:上半身是平凡,下半身是贪婪,又丑又性感
- 三分绝杀!老鹰险胜魔术,特雷杨41+5+8,马刺旧将大心脏李知恩身穿V领黄色纱裙,优雅大方又显气质,美出新高度
- 原创 西部球队季后赛概率:勇士63%?太阳仅36%,湖人仅比快船高一点!
- 狂轰6连胜!76人险胜绿军,升至东部第1!恩比德27分,塔图姆16分
- [瞎话板]比卢普斯:布罗格登已经挨近复出,亨德森也有望本周回归
- CBA老例赛:北京北汽胜南京头排苏酒
- 全场8人轮换,6人得分上双!打成这样的热火,最后还是输给老冤家狂轰35+15+12!全联盟第一,NBA最强超巨诞生,MVP总冠军全都要
- NBA常规赛:猛龙142-113送活塞11连败,西卡23+7+6,巴恩斯17+7+9
- 随机阅读
-
- 原创 三巨头终于合体!挑衅勇士!他也要回来了!
- 爱为真村落子复原帮扶馆揭牌建树
- 波尔津吉斯单场25+患上分6+封盖,凯尔
- 西南大爷跳冰河救人
- 原创 季中赛步行者为什么打不过湖人?球迷赛后一席话说得很实在
- 北汽男排取患上联赛两连胜
- 养儿5年发现非亲生 女方称不知情,生父可能在牢狱
- 专为年轻人而生,传承“大黄蜂”运动基因,百公里油耗仅6.5L怀孕女子蹭车15天,同事无奈骑车下班,女子老公:影响胎儿了道歉
- 原创 中国男篮归化新目标!步行者新星表态愿加盟:我曾祖父是中国人
- 波贝加:实现米兰首秀是种救赎,当时致使没意见到自己在做甚么
- [瞎话板]夸诞!文班亚马回手接球,地面折叠躲过乔治防守上篮患上手
- 查尔斯国王75岁,看着女王母亲的铜像落泪,再也没有“妈咪”叫了
- 原创 重返曼联?恭喜穆里尼奥!新老板介入,罗马后悔,英超争4乱了
- 德甲综合 | 多特大胜十人弗赖堡 柏林联合暂登榜首资深娱记曝张柏芝三胎爸爸身份:争夺抚养权想不断地拿抚养费?
- NBA首期新秀榜:文班亚马领跑,雷霆22年榜眼霍姆格伦排第二
- 欧冠:拜仁胜加拉塔萨雷
- 亚冠罚单将至浙江残阵南征墨尔本 莱昂纳多停8场?“亚洲第一美胸”:因潘金莲成名,28岁住豪宅,如今沦落到卖拉面
- [瞎话板]五犯了!拉梅洛
- 2-0、3-1、0-3遭反击,2位世锦赛冠军对轰,“准度王”4-3反超“魔术师”长沙:女子着装“不正派”,吊带下垂,短裤上外露
- 年迈气盛!库明加回手重忽防守强突实现单
- 搜索
-
- 友情链接
-
- 陈奕迅Instagram
- 许绍洋主页
- 琅琊榜Facebook
- 陈志朋博客
- 罗志祥官网
- 元彪Facebook
- 赖冠霖Weibo
- 贺军翔TikTok
- 喜剧之王微博
- 辰亦儒微博
- 指环王3王者无敌Instagram
- 杜天皓TikTok
- 许名杰Instagram
- 向华强Weibo
- 伍佰Weibo
- 向佐Weibo
- 琅琊榜Facebook
- 古巨基官网
- 欧阳龙主页
- 狩猎抖音
- 2020年篮网豪赌哈登组三巨头,当时波及生意的4人其后睁开若何?
- 法甲马赛迎战帕纳辛纳科斯,挑战欧冠季后赛资格前瞻!这一次,42岁的张柏芝彻底撕碎了身上的“遮羞布”
- 马赛的地中海风情那英又出事,风波升级!现身上海音乐节遭抵制,网友:拒听那有鸟
- [瞎话板]班切罗全场3中3,罚球4中0患上到6分3篮板3助攻2抢断1盖帽
- 虎牙2023年Q2财报:总营收18.2亿元,挪移端MAU达8290万
- “入住旅馆变公寓”状师先歌咏后起诉,历时近一年初获3倍房费抵偿
- 留洋最大希望:吴少聪土甲2场解围12次,位列全队第一!曝李双江批评《罗刹海市》后,疑被取消3W退休金,李天一再被提
- 原创 公牛集团上半年业绩出炉,二季度沪股通增持, 2只公募基金减持