当前位置: 首页>行业 >

出门问问把AIGC看得很透彻-天天热门

来源: 维科号 | 时间: 2023-04-28 14:44:02 |

李志飞将AIGC看得很透,他可能是行业里“最不着急”的人。

@数科星球原创

作者丨苑晶编辑丨大兔


(资料图片)

“几乎每一个行业,从业者都是国外的2倍,利润又是同行的1/5,让中国的创业难度提升了10倍”。李志飞的这句话适用于广大行业,也可看成AIGC行业所面临的现状。

在2023年,AIGC行业开局即炸裂。“被离职”、泛互联网从业者及创业者扎根其中,保守估计已逾百万之众。热闹中裹挟着焦虑,熙熙攘攘的人群中到处可听见“chat、chat”。

第二季度,国内企业动作频出,百度、360、阿里、商汤相继发布自研大模型,创业圈也热情不减,王慧文、李开复、贾扬清、王小川相继下场宣布入局大模型,当大家的关注点都聚焦在5000万美元能买多少张卡,可以支持几次训练的时候,李志飞和出门问问却走出了另外一条路。自研大模型+AIGC产品矩阵,底层技术和应用落地并行是这家公司的特色,他可能是这个行业“最不着急”的人。

01

什么是大模型

在李志飞看来,大模型本质上是序列模型。

以GPT为代表的大模型起源于文本,⽂本是简单线性序列,从这个角度看,大模型本质上是一个序列模型。

他认为,序列本身是很通用的,语言是一种序列,天气温度、股票价格也是序列。任何一个序列都有所谓的Prefix(前缀)、中缀(Infix)和 Suffix(后缀),这些元素构成短语后就能形成具有递归能力的层次式表示,就像语言的语法树一样。大模型现在已经学会快速表达序列,这一能力是以前的AI在机器翻译、语音识别等序列任务里都不具备的。而且语言序列只是一种非常简单的序列,因为它是线性的。

这似乎并不难理解,在数科星球(ID:digital-planet)多方印证下,找到了序列模型的一些解释:(GPT、BERT等)之所以被称为序列模型,是因为它们是在序列数据上进行预训练的。在自然语言处理领域,大模型的输入通常是一句话或一篇文章,这些输入可以被看作是一个序列。因此,在训练这些模型时,它们通常会以序列方式处理输入,并使用一系列技术来建立记忆和理解上下文之间的关系,以提供更好的预测能力。

在数科星球(ID:digital-planet)的研究中发现,如今,序列模型在业界已被广泛采用。例如,Google的BERT模型可以通过在大量文本数据上进行预训练,理解单词和短语之间的关系,从而实现对复杂自然语言处理任务的卓越表现。同样,OpenAI的GPT-3模型是基于序列到序列的转换模型,以多种方式训练,使用Transformer架构来学习计算机生成的文本与真实的人类生成的文本之间的关系。

值得注意的是,大模型较之以往AI产品的好处是显而易见的。以往,问题在通过AI生成结果之前,需要定义语义模板,而这通常是指一种用于描述和表示语言语义信息的结构化模板。这些模板描述了一些常见的语言结构和句式,在生成文本时可以根据这些模板来指引生成过程。但缺点是,当问题发生变化,AI的程序也需变化,这让模型本身变得“不那么通用”。

“而大模型训练过程中并不会预设问题,只在最后Fine Tuning阶段给模型一些范例数据(而非按照格式去标注数据),然后就可以直接提问模型并得出答案。”这意味着,大模型产品不需要特意标注数据和重新训练系统,在通用性角度上,是一种极大的进步。

02

参数不是越多越好

随着ChatGPT在全球越来越火爆,大模型的基本原理已逐渐被世人熟知。在一个个大模型推向市场的同时,数科星球(ID:digital-planet)看到,大模型的参数量变成了人们关注的焦点。对此,人工智能科班出身的李志飞认为,大模型不只是”大“。

他提到,参数量超千亿的语言模型并非近年才发展起来,早在2007年,Google Translate的语言模型就已在2万亿文本token里进行学习,并达到3000亿参数。但那时的大模型都是基于文本里的n-grams构建,只是对互联网文本的表层建模,至多只能往前看六个词,主要用于在翻译过程中判断哪些句子更加符合目标语言习惯,并不具备泛化任务的能力。

所以大模型不只是「大」,更多是需要对互联网文本深度地建模。

在数科星球(ID:digital-planet)对话相关业内人士后,也得出了相似结论:即大模型并不是参数越多越好——大模型确实需要参数到达一定的量级才会出现“涌现“能力,增加参数量也的确可以提升模型表现,但也会带来以下一些潜在问题:

训练时间和计算资源:参数越多,训练模型所需的时间和计算资源就越多。这可能导致开发周期变长,并需要更强大的硬件设备才能支持。

过拟合:较多参数的大模型可能面临过拟合问题。当一个模型具有太多参数时,它可能过于复杂,以至于对训练数据捕捉过多细节,而无法很好地泛化到新的、未见过的数据。

优化挑战:参数较多的模型在寻找最优解时具有更大的搜索空间,从而使优化过程更为复杂和困难。

易用性和部署:大模型可能导致较大的存储和内存需求,这可能影响模型的易用性和部署。在资源受限的设备上(如移动设备),部署大模型可能存在挑战。

因此,在设计和选择模型时,应该根据任务需求和资源限制来平衡模型的大小和复杂度。在实际应用中,往往需要找到模型大小和性能之间的最佳平衡点。有时候,使用更小的模型加上合适的正则化方法、数据增强等技术,也能达到不错的效果。

03

关键在于把如何大模型用起来

4月20日,出门问问在2023AIGC战略发布会上内测自研大模型“序列猴子”,展示了其在知识储备、多步推理等方面的能力,李志飞本人甚至做了一场“人机交互”的live demo。

此外,出门问问还推出了四款AIGC产品形成产品矩阵,分别为AI写作平台“奇妙文”、AI绘画平台“言之画”、AI配音平台“魔音工坊”、数字人视频与直播平台“奇妙元”,涵盖了剧本生成、解说讲稿、文本工具、创意想法、视频制作和制图配图等多个使用场景。

自2012年成立,出门问问这家公司在语音识别、TTS和NLP等领域均有尝试。2020年6月,GPT-3出现之后其强大的通用能力让人李志飞非常震撼,一个单一的模型便可以完成多种特定任务,甚至能够完成从来没有接触过的任务。惊艳于GPT-3的表现,出门问问开始探索中国GPT-3之路,并于2021年发布大模型「UCLAI」,但由于其商业化落地过于艰难,出门问问便停止了对大模型的投入。

随后的一年多时间里,出门问问开始布局生成式AI,做出了一系列AIGC产品,如「魔音工坊」和「奇妙元」。同时在美国,以Jasper为代表的AIGC产品迎来爆发式发展,成为GPT落地应用的最佳场景之一。

2022年10月,出门问问重启大模型业务。历经6个月,出门问问在发布会中连发4款AIGC产品,涵盖剧本生成、解说讲稿、文本工具、创意想法、视频制作和制图配图等多个使用场景形成覆盖创作者全流程的生成式产品矩阵。

厚积薄发之下,大模型技术以及AIGC落地场景和产品应用的积累彻底打通了出门问问的“任督二脉”,让产品-数据和用户之间形成了飞轮效应。

客观地说,出门问问的模式可以成为大模型和AIGC企业的成长样板,在可预期的未来,AIGC产品之间也将在进一步提升语义语境理解、垂直模型和个性化之间展开。在数科星球(ID:digital-planet)看来这场技术革命才刚刚开始,远没到终局之时。

不过面对OpenAI引发的这场技术浪潮,相比于年初的满腔热血,李志飞理性了很多。

“跟ChatGPT差距是16个月 ”是李志飞对国内大模型技术水平的判断,他认为,目前国内各家大模型的平均水平大概处于谷歌FLAN阶段(FLAN开启了大模型的指令学习Instruction Tuning范式),

做大模型不能太着急,它是个长期主义的事情。

如今,在琳琅满目的AIGC类产品推向市场的同时,数科星球(ID:digital-planet)认为,创业企业在构建技术底座的同时,还应该明确落地场景和商业模式。毕竟目前,国内外差距展现出来的只是技术问题,而中国拥有全球难以企及的应用优势。技术和商业并行,两条腿走路或许是最适合国内大模型企业的发展路线,就像李志飞所说,发展大模型的关键在于把如何大模型用起来。

结尾:在对话多家AIGC企业后,数科星球(ID:digital-planet)觉得,李志飞和出门问问可能是行业中“最不着急”的人。他本人对AIGC的态度是长期看好,但并不焦虑。

现在,AIGC的子弹飞翔两个多月,并搅得行业“天下大乱”。在未来,数科星球(ID:digital-planet)希望看到更多更扎实、更能沉得住气的企业加入AIGC大潮。有理由相信,倘若再给行业多些时间,那么将会有更多的企业给大众带来更多惊喜。

关键词:

 

热文推荐

出门问问把AIGC看得很透彻-天天热门

李志飞将AIGC看得很透,他可能是行业里“最不着急”的人。 @数科星球原创 作者丨苑晶编辑丨大兔 “几乎每

2023-04-28

每日资讯:历史上的今天-双色球4月30日开奖号码汇总

双色球下期开奖是在周日,阳历4月30日,阴历三月十一。以下为历史阳历4月30日开奖号码汇总:阳历4月30日开

2023-04-28

著名作曲家王世光辞世 享年82岁-全球观察

中央歌剧院原院长、著名作曲家王世光,今天早晨在北京去世,享年82岁。

2023-04-28

拉斯普京电影迅雷下载_拉斯普京电影

1、参考答案33、能够问拿零用钱程度都严格考验。本文分享完毕,希望对大家有所帮助。

2023-04-28

会展服务属于哪个行业_会展服务属于什么税目_天天观热点

1、组织安排会议或展览的服务按照“会展服务”征收增值税。2、一般纳税人的适用税率为6%。3、小规模纳税人

2023-04-28

菠萝切了一半可以放过夜吗

菠萝的吃法比较多,一般都是直接削皮切块吃,也可以炒着吃,还可以做各种各样的甜品小吃,深受人们喜欢。菠

2023-04-28

2023天津五一宁河绿屏驿站游玩攻略

➤➤2023天津五一宁河绿屏驿站游玩攻略开幕式时间:2023年5月1日开幕式活动安排9:30-11:00开幕仪式11:00-17

2023-04-28

焦点日报:一季度净利大增7成!千亿硅片龙头晒亮丽业绩

上市公司年报和一季报披露尾声,由于很多公司业绩不及舆情,加之五一临近,市场避险情绪升温,A股市场出现

2023-04-28

什么是社区底商? 底商是什么意思?

1、什么是社区底商?底商,是指住宅的第一层、第二层。2、一般住宅特别是高层住宅的第一层、第二层销售都较

2023-04-28

4月28日山东钢厂焦炭最新采购价 世界即时

4月28日0时起山东地区钢厂对焦炭采购价下调100元 吨。准一级(湿熄)冶金焦:省内2120元 吨,省外2130元 吨;

2023-04-28

天天信息:对面楼的两口子,男方是本科生,女方是青梅竹马,只读到了四年级,日子过得很幸福

【本文由“印加节度使”推荐,来自《你会介意另一半文化水平低吗?》评论区,标题为小编添加】对面楼里有两

2023-04-28

暗示继续留洋?何小珂社媒:得到的认可坚定了我留在这里的决心

北京时间今天凌晨,留洋西班牙萨瓦德尔的何小珂在社媒发文,似乎暗示自己会继续留洋。根据近期媒体的报道,

2023-04-28

“领导语音轰炸”上热搜 “打工人”有没有可能不加班|天天热闻

“下班后领导给我发23条长语音”,前几天,一句简简单单的吐槽,竟然在网上引发大量共鸣,迅速被推上热搜。

2023-04-28

关东山在哪里_其实这只是个虚构名

欢迎观看本篇文章,小升来为大家解答以上问题。关东山在哪里,其实这只是个虚构名很多人还不知道,现在让我

2023-04-28

柳工:一季度归母净利润3.15亿元,同比增长23.73% 环球报资讯

柳工4月28日公告,一季度公司营业收入792亿元,同比增长169%;归母净利润15亿元,同比增长273%;基本每股收益0

2023-04-28

观速讯丨初中班主任家长会发言稿_初中家长会班主任发言稿精简范文模板

解答:1、亲爱的家长们:2、大家好!我要对所有家长在百忙之中抽出时间来参加这次家长会表示深深的感谢。这

2023-04-28

直击丨在苏丹中国公民有组织撤离 五星红旗护你回家! 最新快讯

当地时间24日清晨5点,中国驻苏丹使馆开始了中国公民及外籍家属的撤离工作

2023-04-28

重点聚焦!电脑键盘退格键失灵怎么办_退格键失灵怎么办

1、首先你重启一次电脑,看看重启后还是不是这样。2、如果还是这样,你打开一个记事本,测试一下你的退格键

2023-04-28

今日讯!我最喜欢做的一件事 我最喜欢的一件艺术品作文

今天来聊聊关于我最喜欢做的一件事,我最喜欢的一件艺术品作文的文章,现在就为大家来简单介绍下我最喜欢做

2023-04-28

商洛市气象台发布大风蓝色预警【Ⅳ级/一般】【2023-04-27】

商洛市气象台2023年04月27日22时59分发布大风蓝色预警信号:预计下述地区未来24小时内将受大风影响,平均风

2023-04-28

资讯

北京推出14条秋游文化线路

金秋时节,北京市文化和旅游局以赏银杏品文化为主题,推出14条“叶落的季节——漫步北京赏银杏品文化主题线路”,邀市民和游客以步行、骑行

2021-10-27     
基因编辑发力 培育高质量人源化供体猪

此次人体试验,仅仅验证了基因编辑猪克服异种器官移植的超急性排斥反应,还需解决延迟性排斥反应、消耗性血栓等问题。但通过这次试验,能更

2021-10-27     
中国经济高质量发展步伐稳健 长期向好基本面未变

在全球疫情走势和经济走势趋于复杂的背景下,中国经济巨轮将驶向何方,举世关注。2020年10月26日至29日,党的十九届五中全会在京举行,明确

2021-10-27     
南美解放者杯决赛允许近4.5万观众入场

南美洲足联主席多明格斯25日与今年解放者杯决赛对阵的两支俱乐部负责人会晤,宣布决赛现场观众人数增加到球场容量的75%,即近4 5万人。今年

2021-10-27     
22年从警生涯 面对荣誉他说不要给我报功

9月24日,时任安徽省安庆市公安局迎江分局刑警大队大要案中队中队长周磊因在工作中激烈搏斗引发心源性猝死,倒在了工作岗位上,经医院抢救

2021-10-27     
走近冬奥|五棵松体育中心场馆“黑科技”全面上岗 助力冬

“相约北京”冰球国内测试活动将于2021年11月7日至10日在五棵松体育中心场馆举行,在疫情防控方面,场馆引入了诸多“黑科技”,为防疫安全

2021-10-27