您现在的位置: 首页 资讯 > > 正文
数据,真的是 AI 大模型市场化的「壁垒」吗?
发布时间:2023-07-12 11:18:38 来源:雷锋网

数据的重要性之于人工智能技术发展长期存在。但在大模型以前,鲜少有人能预见它背后巨大的想象力。


(资料图)

作为智能飞跃中的关键一环,ChatGPT 火爆全球后,“模型-用户数据-模型迭代-用户数据”的飞轮式迭代,令人们对数据的热情上了一个新台阶。据OpenAI 披露,此前 GPT-3.5 的文本语料多达 45TB,相当于 472 万套中国四大名著,而 GPT-4 在 GPT-3 和 GPT-3.5 训练数据集的基础上又增加了多模态数据。

大小企业对数据的火热反映到实际的市场环境上,是数据库企业融资数量的增加、向量数据库的用量陡然增长、以及细分赛道模型的批量推出......数据壁垒,成为大模型落地故事里企业竞争力的代名词。

不过,在经历近半年的浪潮后,市场对大模型的感知正在降温。近日,知名投资人朱啸虎和傅盛在朋友圈的一番隔空争论,给大模型行业再添了盆冷水。在朱啸虎看来,基于大模型做应用,护城河太低、价值非常单薄。

当市场回归冷静,人们终于有时间开始思考:数据真的是大模型的壁垒吗?

「卷」起来的数据

归根结底,大模型在今天展现出强大的能力,得益于背后的海量数据、蕴含了丰富的“人类”知识和智能,通过大模型技术将其提炼出来,用神经网络去表达复杂数据的背后规律。

而 GPT 系列开启了一个新的时代,即我们不再需要提前标注数据了,只需将大规模的语料准备好,神经网络就能自己调整参数、并学习到一个稳定状态。

就目前来看,几乎每一次大模型能力的提升,预训练数据的数量、质量、数据类型等多个方面都起到了关键性作用。

2020 年,一个重要的研究工作发现,模型效果与模型的参数量、数据量和计算量之间存在幂律发展规律“Scaling Laws”,模型参数量、数据量指数性增长、计算量增加,模型在测试集上的 loss 呈现指数性降低,模型性能效果越好。

也即是说,在给定计算量且参数规模较小的情况下,增大模型的参数量对模型性能的影响,远高于数据和训练步数对模型的贡献。

图源:Large Language Models: A New Moore"s Law?

因此,业界对大模型性能形成了一种普遍的认知,即模型的参数越多、容量越大,模型的性能表现越好。

而事实上,前段时间所发布不少大模型的表现,正在不断挑战这一“参数”定律。

比如 Meta 在 2 月份开发的 LLaMA,其训练数据是 GPT-3 的 4.7 倍,其中 LLaMA-13B 虽然在规模上相较于 OpenAI 的 GPT-3.5(175B)和 Meta 复现的开源大模型 OPT 小了十几倍,但其表现能力在大部分基准上均超过后者;而LLaMA-65B 更是与 DeepMind 的 Chinchilla-70B、以及谷歌 5400 亿参数的 PaLM-540B 在表现上旗鼓相当。

可以看到,更多的数据对大模型性能的影响有关键性作用。

不仅如此,智源研究院副院长兼总工程师林咏华曾向 AI科技评论表示,模型性能取得阶段性突破,最重要的还有数据质量的提升,模型的训练语料在一定程度上会影响 AIGC 应用、微调后模型等内容生成的合规、安全以及价值观等问题。清华大学副教授、聆心智能创始人黄民烈在向 AI 科技评论回忆参与智源大模型工作时,也强调了数据质量对于模型的性能影响非常之大。

当前,国外的大模型和国内部分模型会选用许多国外开源数据集进行训练,如 Common Crawl、  RedPajama、BooksCorpus、The Pile、ROOT 等等。但源于互联网的数据虽然多、质量却良莠不齐,从获得海量数据到高质量数据,数据的清洗仍面临着很大挑战。

数据显示,智源通过对 100 万条 Common Crawl 网页进行分析,共提取出中文网页数量近 4 万个;从站源角度来看,可提取出中文的网站共有25842 个,其中 IP 显示中国内地的只有 4522 个,占比仅为 17%,不仅中文数据的准确性大打折扣,数据安全性也很低。

如今不仅是数据量,数据清洗方式也已成为各家的核心竞争力之一。比如对数据集中污点数据的定义和发现,有行业人士指出,这或许还需要社会学、伦理学等多个交叉领域专业人士的介入,在专业知识和经验积累的基础上,加入对污点数据处理算法的迭代。

除了数据质量,数据的多样性也是影响模型能力表现的关键因素之一。

Sony AI 高级科学家吕灵娟向 AI 科技评论指出,数据量的增加有利于提高模型的智能水平,但更精准的说法是,数据在多样性和质量上的提高,才能够实现整个数据值智能的飞跃,而非是单纯数量的增加。举个例子,如果是简单的同类型数据反馈,单条数据反馈和十条同类型数据反馈,虽然在数据的数量上增加了 10 倍,但模型的智能并没有得到拓展和增加。

以 GPT 系列模型的能力跃进来看:

GPT-1使用的训练语料以书籍为主、如BookCorpus 等

GPT-2则使用了如 Reddit links 等新闻类数据,文本规范质量高,同时又包含了部分人们日常交流的社交数据

GPT-3时期,模型的数据规模呈数十倍增长,Reddit links、Common Crawl、WebText2、Wikipedia 等数据集的加入,大大提高了数据的多样性

GPT-4阶段更引入了 GitHub 代码、对话数据以及一些数学应用题,进一步提高了模型的思维链推理能力

不仅如此,模型训练时所使用到的不同类型的数据,甚至能够影响最终训练所得的模型类型。

行业大模型的研发离不开通用大模型的能力,但从技术上看,行业大模型也并非只是简单地将数据喂给通用大模型、进行微调,就能获得解决专业领域问题的能力。此前有研究表明,拥有金融行业私有数据的 BloombergGPT 在多个任务上的表现,并未比通用大模型的表现更好。

香港科技大学(广州)信息枢纽院长陈雷告诉 AI科技评论,“大模型解决了基础的语言理解问题,也即是说,大家在使用它、问它的时候,它能知道大家问了什么问题。但得到什么样的答案,需要我们数据科学、AI 模型把前端做好。”

例如之前港科大推出的校园GPT,就将智慧校园中的知识库放入GPT或ChatGPT中,让它具备了回答校园导航、餐厅菜单、课程安排等具体学校场景中的问题。陈雷表示,“大模型是通用的,但做vertical domain (垂直领域)大模型、最重要就在于,前端如何让数据ready,如果数据表现不好,想让大模型回答你的问题非常难。”比如做一个智慧城市相关的行业大模型,就需要对应的维基百科、企业数据等等。

可以说,今天数据之于大模型,既是“炼丹”的原材料,决定了最终“烹饪”出哪个菜系的大模型,同时,数据的数量、质量、多样性乃至清洗能力,也是影响大模型性能表现的关键性要素。

数据「壁垒」,是护城河还是悖论?

很长时间以来,数据被视为大模型落地的入场券,甚至是军备竞赛中的竞争护城河。关于数据“壁垒”的本质、是否存在等问题,极少有人去思考。

众所周知,在今天的公开互联网数据中,高质量的、中文数据样本是偏少的,一个现实的情况是,大模型任意领域的问答生成表现都非常好,但面对专业领域问题的表现不佳,甚至会出现模型“一本正经地胡说八道”的幻觉。

业内人士同 AI 科技评论交流时也坦言,数据标注可以通过找人、花钱来完成,真正困难的是原始数据的获取,“在国内,高质量、经梳理过的数据短缺是一大问题,特别是有效的中文数据更是稀缺。”

因此,当国内各家大模型厂商将目标瞄准在追赶GPT-3.5 时,其差距大多只有 1 到 2 个月的时间差,很快就能追平,很难有哪一家能显著拉开差距。同时,由于缺少行业数据的投喂,对容错率更低的生产环节而言,大模型所能释放的生产力也更加有限。

一部分人的看法是,数据壁垒将长期存在,并且随着大模型的体量向万亿级规模迈进,数据壁垒还将持续扩大。

可以看到,当前的互联网的数据存在一定的大厂割据的现象,比如在百度上搜索不会弹出来抖音的视频推荐,阿里也拿不到微信里的数据,虽然中文语料海量,但几经切割后,投喂出来的大模型效果也会大打折扣。这也意味着,数据的壁垒会不断加高大模型的围墙,使其成为仅限于大厂或拥有海量数据资源玩家的垄断性技术。

一位大厂数据优化工程师也向 AI 科技评论表达了相同的看法,大模型本身的泛化能力仍受限于数据,如果说 ChatGPT 要取缔某个职业或岗位的话,最简单的一个判定标准即是,是否具备数量足够多、质量非常好的数据。

为此,自带场景、数据和用户的产业、企业客户成为了大模型公司相互争夺的资源。不仅如此,有知情人士告诉 AI 科技评论,为了抢占这部分企业客户拿到数据,一些大模型厂商还愿意自降身价,以比竞争对手更低的低折扣、甚至免费的方式为企业部署大模型,以求得后续进一步深度合作。

而另一边,也有人对数据壁垒的观点持相反看法。

有业内人士就表示,数据壁垒、数据垄断去搭建企业自己的护城河这一方式并不存在,更多是持有数据公司来拉高自身估值的一个说辞。现阶段,数据泄露、数据买卖的事件频频发生,灰色地带衍生的产业链成为直指数据壁垒的矛,“一个关键性问题就在于,你怎么证明别人盗用了你的数据?我又要怎么防止别人盗用我的数据?”

不仅如此,数据信息也是存在于一定时间周期中的数据,一方面,短时间内的数据累计能否发生质变,从数据转化为有效信息还尚未可知;另一方面,有部分行业数据还会定期进行信息披露,也就是说,今天信息的私密不意味着未来数据信息的私密。

而站在技术革新的角度上,一位从事自然语言处理方向研究的高校教授也告诉 AI 科技评论,语言大模型之所以涌现,是多种技术积累沉淀和极致的工程化的结果,事实上并没有什么革命性的跨越,而是一个技术工程、对参数的掌握,“底座技术决定了大模型整体性能的80%,数据、场景等等其他东西只占20%。因此,我们关注的核心还是在于,尽快先把里边的机理弄清楚,再从底座模型入手、想怎么进行革命性的提升。”

总体而言,随着市场化的深入,将大模型用在业务里,一套被寄予厚望的商业模式是,收集更多的数据做成数据黑洞,模型也能变得更强。但同时我们也要看到,数据壁垒之于技术创新的局限性。

数据的「达摩克利斯之剑」

OpenAI 在对未来 AGI 发展的预测中提到了两个重要方向,其中之一就是收集尽可能多的有效数据。可以看到,从 GPT-3 的文本数据,到 GPT-4 文本加图片的多模态数据,有业内人士预测,GPT-5 将是文本、图片加视频的数据汇合。

作为工程化落地的关键一环,数据还有很多问题没有得到足够重视,面临着极大的挑战,首当其冲就是数据安全问题。

将 GPT 家族视为一个不断迭代的大模型版本,必然存在一大部分数据共享,再引入新的数据和机制训练,模型的训练效率和生成内容质量受技术、数据等方面影响发生改变,而无论是哪个方面,数据存在安全隐患是毋庸置疑的。

吕灵娟告诉 AI 科技评论:“这些数据未经授权、也没有好的制约机制,即便在早期训练过程中,企业或研发人员会对有害数据进行筛除,但从完整的训练流程来看,模型仍会不可避免地继承或者加重部分污点数据。”其中,模型的可解释性与数据量呈高度相关性,模型越大、黑盒子越难解释。

不仅如此,当前的现状是,大部分企业公司并不愿意公布自身大模型的训练数据来源,数据当中涉及到隐私、公平性、偏见和环境等多方面问题,站在商业立场上,容易引发激烈讨论的数据集风险程度更高,企业出于经营风险将数据隐藏起来也无可厚非,但在这个过程中,外界也无法获知该数据对个人及社会造成的具体危害有多大。

不同规模大小的企业资源差距较大,面对数据安全问题的解决方法也不同:小公司没有足够的财力和人力,一般多采用现有的开源数据集;大企业采用的方式,更多是以雇佣人力做数据标注来对数据进行深度清洗、提高数据质量。

专业人士指出,数据清洗作为大模型训练中一个最基本的数据环节,虽然可以过滤掉部分隐私或有害信息,但总的来说效果并不够,没有办法将数据集中的偏见消除干净,模型训练数据清洗能达到怎样的程度,也并不能解决根本问题。对此,吕灵娟表示,解决问题的关键还是应该从前期导入数据阶段就做好防范措施,从而在后期运维上也能节省更多的开支。

IDEA 研究院首席科学家张家兴博士告诉 AI 科技评论,在开源层面,开发者也面临着诸多的数据安全问题,其中就涉及到有些行业数据是否适合开源,因此从开源角度上看,也限制了部分模型只能部署在少数行业内做尝试。

而着眼于当下,用于训练 ChatGPT、GPT-4 等模型的数据,均源于人类发展过程中所积累下来的书籍、文章、图片、网站信息、代码等,是在没有 AI 帮助生成的情况下创造的,伴随着生成式内容和数据越来越多,或许在不久的将来,可能会出现大模型用 AI 生成的数据进行训练的事件发生。

此前,牛津大学、剑桥大学等研究人员就在“The Curse of Recursion: Training on Generated Data Makes Models Forget”工作中提出了一个令人担忧的结论:“模型崩溃”(Model Collapse),也即是说,当大模型生成的数据最终污染后续模型的训练集时,模型会出现一个退化的学习过程,随着时间的推移,由于模型被自己对现实投射内容所毒化,模型会在这个过程中开始遗忘不可能发生的事件。

当这些由 AI 生成的数据转化为大模型的原材料,使模型对现实的认知产生扭曲,从而产生的内容进一步污染网络世界,未来,我们通过互联网获取高质量数据训练模型将会愈加困难。正如 Michael Keaton 在 1996 年电影《丈夫一箩筐》(Multiplicity)的银幕中,制作了一个又一个自己的克隆人,最终导致后代克隆人的智力水平呈指数级下降,愚蠢程度不断增加。

其次,企业的私有数据也面临着安全隐患。

通用大模型在任意领域的问答生成表现都非常好,但它在专业知识领域的问答上仍有不足。相较于公开数据集,专业知识数据在网上不好获取,这部分属于核心机密的数据往往掌握在企业自己手中,数据越多、质量越高,价值也就越大,企业想要大模型部署效果表现好,离不开企业提供足量、质量够高的数据来支撑模型训练要求。

但是,由于企业和大模型厂商之间存在的天然的信任障碍,企业担心核心数据泄露,因此私有化部署成为了现阶段大模型在企业端落地的主要选择。

2017 年,《经济学人》杂志在所发表的封面文章中称,世界上最具价值的资源不再是石油、而是数据,从那之后,“数据是新时代的石油”这一说法被广泛接受。

而六年后的今天,大模型将数据的重要意义推向了又一个巅峰,“以数据为中心”成为从事大模型研发和应用的行业人士的共识,但同时,我们也要看到数据领域中存在的不足,提高数据安全性、稳健性,减少偏见和毒性。AI 模型规模迈进万亿时代,数据已经成为全新生态突围的关键卡点,在大模型走向场景落地的当下,一个清楚的事实是:对数据的需求量将越来越大。

参考链接:

1.https://huggingface.co/blog/large-language-models

2.https://arxiv.org/abs/2001.08361

(雷峰网(公众号:雷峰网)雷峰网)

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

标签:

2022中国企业500强榜单发布 500强规模突破百万亿元大关

昨天,中国企业联合会、中国企业家协会发布2022中国企业500强榜单。在这个体现企业综合实力排名的权威榜...

少数的生物具备再生能力 盘点6种身体部位再生的动物

如果我们能使缺失的肢体或受损的器官再生那绝对是一件再好不过的事情了。想象一下,由于你可以在你的一...

190岁塞舌尔巨龟Jonathan成为头条新闻 大多数龟类物种的硬壳带来较慢的衰老

190岁的塞舌尔巨龟Jonathan最近成为了头条新闻,它成为了世界上最古老的陆地动物。虽然有传闻称某些种类...

重庆:到2025年25个重点领域企业能效全部达到基准水平

3月18日,重庆日报记者从市发展改革委获悉,日前,市发展改革委、市经济信息委、市生态环境局、市市场监...

重磅!2021“发现重庆之美”获奖名单揭晓

3月19日,2021发现重庆之美颁奖典礼在线上举行,最美城市管理人、最美坡坎崖、最美街头绿地、垃圾分类时...

去年重庆回收废弃农膜1.4万吨 农膜回收率达89.31%

3月16日,市五届人大常委会第六十九次主任会议听取了市政府关于《重庆市人大常委会对市人民政府农业面源...

申报分两批!今年国家级博士后科研工作站新设站工作启动

3月19日,重庆日报记者从市人力社保局获悉,为推动产学研深度融合,加强博士后工作平台建设,我市将开展...

浙江鄞州:“水、电、气、数”通办专窗实现城乡公共服务均等化

近日,在宁波市鄞州区邱隘镇公共事务服务中心,66岁的邱隘镇沈家新村居民邱秀月在一个窗口相继办理了不...

打开“浙里办” 浙江1000家农贸市场农产品可线上比价

今天哪个菜场的五花肉最便宜?食品安全抽检结果怎么样?这些问题,浙江居民只需打开浙里办APP上的浙里市场...

浙江鉴湖国家湿地公园规划发布 打造乡村数字旅游

19日上午,鉴湖国家湿地公园规划发布暨东鉴湖农旅观光体验启动仪式在绍兴市越城区陶堰街道举行。当天,...

总投资超10亿元!6个石化装备运维项目在岱山签约

日前,总投资超10亿元的6个石化装备运维项目在岱山经济开发区集中签约。此次签约的项目占地106亩,规划...

如何避免成为“买而不做”的“装备党”祝 杰

自恋是人的天性,人们总是希望自己是更好的,那么自己拥有的事物,也就相应地被自我赋予了更高的价值,...

山西临汾:率先在全省建起农村集体经济开发区

3月17日,临汾市农村集体经济发展(集团)有限公司在临汾经济开发区揭牌。以此为标志,临汾率先在全省建起...

一线工作近22年的缉毒警:我知道坏的是毒品不是人性

  “影子”般的缉毒警:一线工作22年,我知道坏的是毒品不是人性  如果我不继续干,别人也要干,缉...

广东肇庆“毒驾连撞5车致1死”肇事司机被批捕

  1月5日14时30分许,广东肇庆市端州区一男子赵某毒驾连撞5车,致一人死亡。  1月10日,澎湃新闻(ww...

江西最大文物倒卖案宣判:倒卖国家二级文物 9人获刑

  中新网南昌1月10日电 (冷峥嵘 张一怡)江西省共青城市人民法院10日发布消息称,近日,该院依法审结...

青海保障门源地震后生活必需品应急物资

  中新网西宁1月10日电 (记者 孙睿)记者10日从青海省商务厅获悉,青海海北州门源县6 9级地震灾害发...

广西东兴口岸恢复通关 入境需网上预约

  中新社防城港1月10日电 (翟李强)自2022年1月10日零时起,广西东兴口岸和边民互市贸易区恢复人员、...

呼和浩特:寒假期间有条件的学校要开展校内托管服务

  中新网呼和浩特1月10日电 (记者 张林虎)10日,记者从呼和浩特市教育局获悉,在暑假校内托管试点的...

“中国最后一个原始部落”翁丁老寨火灾原因公布

  “中国最后一个原始部落”翁丁老寨火灾原因公布:小孩玩火引起  中新网昆明1月10日电 (罗婕)近日...

北京市十五届人大五次会议胜利闭幕

  北京市十五届人大五次会议胜利闭幕   蔡奇陈吉宁李伟魏小东张延昆出席   张延昆齐静当选市人...

天津市委市政府致全市父老乡亲的慰问信:我们一定能够打赢

  中新网天津1月10日电 (记者 张道正)中共天津市委、天津市人民政府10日发布了“致全市父老乡亲的慰...

天津米面油存量由20天提高至30天 超市菜市场进货量翻倍

  天津米面油存量由20天提高至30天 蔬菜库存量、超市菜市场进货量翻倍  记者10日从天津市商务局获...

兰州名师话“美育”:“尚乐立人”分层培优 以“美”润教

  中新网兰州1月10日电 (记者 刘玉桃 高莹)“实际上音乐课作为一门非高考科目,一直以来没有受到足...

子夜直击,天津寒天战“疫”

  新华全媒+|子夜直击,天津寒天战“疫”  新华社天津1月10日电 题:子夜直击,天津寒天战“疫”...

重庆姐弟被生父扔下坠亡案上诉期结束 一审法院暂未收到两被告人上诉状

天津:划定封控区 全市开展全员核酸检测

江歌母亲江秋莲:尊重法院判决,法律认定在我意料之中

中国边疆“北方第一所”:9名民警守护“生命禁区”

辟谣!网传“封控区管控区相继解封”通知并非西安

河南安阳9日12时至24时新增11例本土确诊病例

老人5折环卫工8折生活困难免费 这家面馆背后有个暖心事

铁路公安以110幅优秀书画作品庆祝人民警察节

本周中东部冷空气频繁 东北等地有降雪

河南新增本土确诊病例60例

“打拐”民警眼里的百态人生:见证一份份不愿放弃的爱

迎腊八北京晴天上线 阵风6至7级体感冻人

多省份倡议春节“非必要不离开”,这地补贴1000元

伪造国家机关证件典型案例发布 有力打击制假贩假行为

15年照顾170多个新生儿 金牌月嫂“漂”到海外去看娃

江歌母亲江秋莲诉刘鑫案一审将于今日宣判

河南省安阳市两地划为高风险地区 一地划为中风险地区

员工迟到一次罚一千引争议 单位惩戒员工法律边界何在?

以体育人 秀出“青年范儿”

保安、厨师曾被竞业限制 企业滥用竞业限制让员工很苦恼

反诈老陈破圈:人民群众在哪 就把反诈宣传开展到哪

一所中职学校的育人实践

各地严惩恶意欠薪 保障农民工及时拿到工资

中学生成剧本杀行业潜在消费人群 多方助推行业“净化”

“这就是我最好的选择”

对餐饮浪费说“不”(百姓关注)

校园“直通车” 服务“零距离”

琉璃河遗址 两段铭文共证北京三千年建城史

千元修复个人征信报告?银行:“征信修复”都是骗局

琉璃河遗址 两段铭文共证北京三千年建城史

北京公交将开展无人驾驶道路测试

河南郑州调整五地为中风险区域 公路入郑需核酸检测阴性证明

“共享法庭”让金融消费者畅享“智慧司法”便利

《传奇2》网游著作权纠纷案峰回路转 最高法五份裁决四份改判一份发回重审

三代警察:从未放弃的28年

“胡叔叔”的寻亲工作室

天津津南本轮本土疫情第3—20例阳性感染者活动轨迹公布

“团圆”行动刑侦专家吕游 每一个案例都有单独的技术方案

河南“战疫”直面五重考验

开考古书店日均两三个顾客 流量时代她决心仍是只卖书

冬奥开幕在即 “双减”催热冰雪课堂

“不得以任何借口拒收患者”彰显生命至上

天津多站进京车票暂停发售

冷空气来袭广州气温骤降 广东多地发布寒冷预警

“电话发我”——“霸气回应”疫情求助背后的城市温度

天津津南区再增20例阳性感染者,详情公布

电影《农民院士》昆明首映 为观众呈现“把论文写在大地上”

南宁铁路警方春运期间将免费提供被拐儿童父母DNA检测服务

天津津南调整区域风险等级:1个高风险6个中风险!

天津全面加强离津管理 实施离津审批报备制度

x 广告
x 广告

Copyright ©  2015-2022 南非自然网版权所有  备案号:沪ICP备2022005074号-13   联系邮箱:58 55 97 3@qq.com