国内大模型在局部能力上已超ChatGPT国内大模型在局部能力上已超ChatGPT
中文大模型正在后来居上,也必须后来居上。
(资料图片)
@数科星球原创
作者丨苑晶编辑丨大兔
从GPT3.5彻底出圈后,大模型的影响力开始蜚声国际。一段时间内,国内科技公司可谓被ChatGPT按在地上打,毫无还手之力。
彼时,很多企业还不知大模型为何物,GPT3.5就已够生成诸如营销文案、小说、诗歌等高质量的中文文本。一时间,买课小贩、租号中间商和套壳开发者大行其道。
现如今,在国内厂商严肃对待OpenAI后,情况发生了变化。
在公开资料中,就有360、复旦大学、科大讯飞等企业表达了在中文能力上超越ChatGPT的消息。现在,时间进入2023年8月份,号称超越国外竞品的公司变得越来越多。
01
中文模型进击:ChatGPT“不香”了
客观地说,在GPT-3推出后,OpenAI曾经在中文文本输出中占得先机。其一经推出,便可覆盖诸如营销文案、小说和诗歌等领域的文生文需求。几个月前,这种先手优势养活了国内一众卖课达人、租号团队以及套壳聊天机器人产品。
不过,很快,这些功能便被国内众多厂商超越,变成了大模型的“标配”功能。
根据第三方监测机构SimilarWeb的数据显示,ChatGPT从4月开始就呈现出了明显放缓的趋势。以至于在2023年的第二季度,人们的朋友圈内几乎没有了OpenAI的踪影。在科技圈,这被归结为竞争对手大批量涌入、垂直模型兴起和新技术迭代所导致。
8月初,中文大模型的“千模大战”已进入白热化阶段。以数科星球(ID:digital-planet)团队所掌握的信息来看,越来越多的企业开始关注下沉市场、并致力于推进具体行业和大模型产品的结合。
这种趋势的结果是,可能会有更多的企业和机构选择使用本土产品,同时也对国外模型的市场份额造成一定影响。在数科星球(ID:digital-planet)团队体验二十余款中文大模型后,所得到的观感和上述言论趋同:即中文大模型正在变得越来越好用,并变得越来越聪明。
更为关键的是,政策层面对国内产品的扶植力度正在加强,而出于安全和自主可控等因素,ChatGPT的“没落”(至少在国内)似乎已成板上钉钉。
但国内厂商的野心还远不止“内卷”国内市场——一些公司已然将目光瞄准了海外。
科大讯飞董事长刘庆峰此前表示,其星火大模型中文已超越ChatGPT,在英文中也已接近,虽还有细微差别,但目前在进一步优化中。
02
中文大模型变聪明的背后
为了探求国内中文大模型的发展情况,在过去的几个月中,数科星球(ID:digital-planet)团队与几十家公司进行了百余次沟通。结果是,科技圈的大佬和创业新星们对待OpenAI的态度严肃且认真。
除了在产品上进行了洗心革面式的改进,还对模型的评价体系进行了优化。
为了弥补中文大模型在评测领域的缺失,日前由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集于不久前推出,该评测名为C-Eval,受到了行业内的广泛关注。
在一些专业人士看来,此评测的初衷是用“锱铢必较”的方式找出中文大模型的比较优势。和以往由第三方咨询公司所主导的、带有倾向性甚至定制化的行业评比所不同的是,无论在过程和结果上,C-Eval更加透明和公开。
据了解,全套测验包含13948道多项选择题,涵盖52个不同学科和四个难度级别。其中前四名包括为清华智谱的ChatGLM2、OpenAI的GPT-4、商汤的SenseChat,APUS的AiLMe-100Bv1。
对比由微软亚洲研究院(Microsoft Research Asia)开发的基准测试AGIEval,C-Eval覆盖的领域更广。APUS技术专家张旭称:“AGIEval只覆盖了中国高考题、公务员考试题等几个类别,而C-Eval覆盖了注册电气工程师、注册计量师……等领域”,覆盖范围的拓宽意味着,除高考、公务员考试等场景外,在其他特定职业领域也可以测定大模型的能力。
从另一个角度说,C-Eval是一个对大模型从人文到社科到理工多个大类的综合知识能力进行测评的竞赛。通常,高阶难度测试是考验大模型性能的关键动作,面对复杂且有挑战性的任务,大多大模型性能会大幅下降。在C-Eval公布的评比结果中,APUS的AiLMe-100Bv1除了在平均分上进入四强,还在难题处理方面超越GPT-4*,排名第一。
据悉,C-Eval Hard(难题)类别是首个提供中文复杂推理能力的测试,“即便是GPT-4来做这个题也会很吃力,”张旭提及,“这是‘闭卷考试’,而以往如AGIEval和MMLU是‘开卷考试’,也就是说,AGIEval和MMLU是各公司自己测试、自己打分、自己公布成绩,而C-Eval Hard的评比显然更加客观、可信。”
的确,C-Eval测评难度比其他测评更高且更严格。在打分流程上,C-Eval更像是学校中为学生准备的大考模式,各个公司参加统一考试并由系统自动打分、C-Eval团队人工审核成绩并公布,所以,就结果上看,其测评所公布的成绩真实性更高。
03
国内大模型的未来
放眼行业,大模型对于国内人工智能产业的意义非凡。
在NLP行业出现范式变革后,Transformer为主导的新一代通用大模型产品大行其道,让人们看到了AGI的曙光。甚至可以说,中国版的ChatGPT3.5/4.0的问世是我国正式迈向人工智能时代的重要标志。
在过去,一、二级资本市场对国内大模型产业意见颇多。讨论最多的是,国内公司没有在前沿技术投入太多,反而将精力侧重于“蹭”数字人、AIGC等概念之上。
客观地说,上述评价不无道理,其中不乏因大环境不好,企业对前沿投入审慎和相关技术积累薄弱等问题所导致。
但近期,随着数科星球(ID:digital-planet)对大模型行业认识的深入,以上问题正在得到改变:首先,以智源研究院、百度文心一言、商汤和APUS等企业的持续投入,我国已有多家企业具备大模型制作和运营能力(此前大多为小模型);其次,随着上半年密集的模型发布大会逐渐落幕,新模型开始迭代积累,并向着ChatGPT能力靠拢。
在我们所知的大模型产业上下游企业中,针对数据处理、清洗、标注、模型训练、推理加速等方面的技术也正在加速追赶之中;最后,政策层面已注意到发展大模型和ChatGPT的必要性,开始着手调集更多资源应对,相关生态和创新土壤也正在完备的过程中。
可以肯定的是,本次人工智能革命的核心就是通用大模型。目前,我国众多企业正在加速追赶。
现在,超越ChatGPT已成为国内AI从业者们心中的图腾。想必若假以时日,这个目标将有机会实现。而到那时,一个属于人工智能时代的大幕才彻底拉开。
原文标题 : 国内大模型在局部能力上已超ChatGPT国内大模型在局部能力上已超ChatGPT
标签:

国内大模型在局部能力上已超ChatGPT国内大模型在局部能力上已超ChatGPT
2023-08-07

用真诚回应 让代表满意|临淄区人社局上门答复人大代表意见建议
2023-08-07

上半年全国新设外商投资企业同比增35.7% 发达国家对我国投资保持增长
2023-08-07

连续三个季度营收下滑 苹果也未能避免市场影响
2023-08-07

8 月份白羽肉鸡价格维持高位
2023-08-07

2.2亿股限售股解禁,盟科药业放量大跌10%创新低
2023-08-07

中国驻尼日尔大使馆发布紧急提醒 请自行离尼赴第三国或回国暂避!
2023-08-07

跳水世界杯:中国队包揽8个奥运项目金牌
2023-08-07

墨玉手镯 墨玉手镯
2023-08-07

卓创资讯:建材价格7月震荡运行 短期或偏强为主
2023-08-07
用真诚回应 让代表满意|临淄区人社局上门答复人大代表意见建议
上半年全国新设外商投资企业同比增35.7% 发达国家对我国投资保持增长
连续三个季度营收下滑 苹果也未能避免市场影响
8 月份白羽肉鸡价格维持高位
2.2亿股限售股解禁,盟科药业放量大跌10%创新低
中国驻尼日尔大使馆发布紧急提醒 请自行离尼赴第三国或回国暂避!
跳水世界杯:中国队包揽8个奥运项目金牌
墨玉手镯 墨玉手镯
卓创资讯:建材价格7月震荡运行 短期或偏强为主
中国女排夺得大运会冠军 中国代表团获90金高居金牌榜榜首
全民健身 绘就幸福
极端高温将需求推至创纪录水平 德州电价周日飙升800%
车都没造明白又要跨界造手机,蔚来想干啥?
尼日尔军方宣布关闭领空
民族自治地方的人民代表大会有权
高校录取通知书要求学生“9月6月”报到?巢湖学院发致歉声明
祝贺!北京男子冰球队登顶十四冬,为北京首夺全国冬运会金牌
水果沙拉哪种沙拉酱比较好吃?
德永佳集团(00321)收购FASHION TIME VIET NAM LIMITED所有已发行股本
深圳武警医院生殖中心_深圳武警医院
ps怎么做雪花飘落效果(每当雪花纷纷飘落原唱完整版)
发表心情的图片大全_发表心情
阳光保险快速应对山东德州5.5级地震
iPhone手机怎么制作来电铃声(iphone怎么设置来电铃声)
扒皮鱼介绍_扒皮贴吧
电子厂图片清晰(电子厂图片)
索爱翻盖手机有哪些(索爱翻盖手机)
今年试运营!毕节这个医院最新进展
广东正推动放宽广州、深圳限牌,上海已增加投放:汽车限购将如何再松绑


- 蓝领招聘直播间里大火,快手们找到了新故事?
- 随身通通话软件(随身通)
- Nappa真皮+5屏联动,仰望U8内饰正式发布,真有百万豪车那味儿了?
- 红安县人民政府(关于红安县人民政府的基本详情介绍)
- 【大美乡村流量“密码”】天津:山水之笔勾勒大美印“蓟” 文旅融合传颂诗与远方
- 世界奶业大会开幕!伊利凝聚全球力量共建“世界乳业科技之都”
- 冯仑:住宅开发会“减速,减量,减价”,除住宅以外还有许多可以开发的领域
- 机械接头怎么表示_机械连接接头位置规范
- 简牍中国丨简出甘肃 方寸之间的故事
- 乡镇干部熟悉专业领域及特长(熟悉专业领域及特长)
- 湖北特检院在荆州召开压力容器制造质量提升培训交流会
- 考前必背!2023中级经济师金融三色笔记 带你夯实基础!
- 半年零订单! 某光电大厂大规模关厂、裁员
- 奥运选手变身带队教师,带领赛艇“小白”在成都大运会乘风破浪
- 31省份上半年财政收入:10省涨超20%,江苏河南湖北云南排名上升
- 总计14艘!中国船厂批量建造欧洲近海散货船大受欢迎
- 武汉白沙洲大道快速化改造项目有新进展!下部结构施工全部完成
- 草莓甜心换装梦好玩吗 草莓甜心换装梦玩法简介
- 贝鲁特港大爆炸三周年 黎巴嫩首都举行悼念活动
- 离婚7年后,善恶报应
- 腾远钴业(301219):8月4日北向资金减持9.31万股
- i7-10510u相当于什么水平(i7 10510u相当于台式)
- “文物医生”再现文物真实生命印记
- 葡萄牙球员报告:阿贾克斯新援卡洛斯-博尔热斯
- 恨“铁”不成“钢”!吹头铁被公诉,中国男足的未来在何方?
- 安吉拉女王(关于安吉拉女王简述)
- 点赞 | 云南导游,旅途中的靓丽风景线(五十)
- 云杉林下的最佳时机喷洒马拉硫磷技巧与要点
- 软银预计2024年后推出生成式AI产品
- 和美乡村微镜头 | 毓秀翠华 大美太乙
- 青春主场丨追求卓越 收获成长
- 博瑞传播: 博瑞传播独立董事关于担保事项的独立意见
- 共和报跟队记者Marco Juric消息(马莱报...
- 美墨边境河段发现两具尸体 墨方指责美方设置浮标屏障侵害移民人身安全
- 全新丰田霸道发布!2.4T 动力带混动,明年国产上市?
- 2023年1-5月中国煤气产量为7041.1亿立方米 华北地区产量最高(占比33.9%)
- 中广核新疆1GW风电项目开工
- 又被包围了,日本原神烧第三弹联动开启,玩家晒图现场人山人海
- 西安首发中欧班列陕乌光伏专列
- 南部战区某部技师叶升学:一名“兵专家”的向战冲锋
- 首批智慧旅游沉浸式体验新空间培育试点名单公布
- 亚马逊第二季度净利润67.5亿美元
- 合合信息曲折上市路:启信宝市场份额远低同行,红海竞争如何突围
- 重庆彭水:家门口快乐过暑假
- 倒出“鞋中沙” 搬走“拦路石”
- 高质量发展调研行丨自主创新持续发力 中国激光器走向全球
- 最好的外汇买卖交易策略是什么
- (女足世界杯)非洲球队强势崛起 日本队成16强中亚洲“独苗”
- 宝可梦冒险超梦幻玩法
- 《逐梦》第六集:《永远守住根与魂》