2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估

科技7个月前发布 xiaoli
216 0

第一部分:国内大模型关键进展

自2022年11月30日ChatGPT发布以来, AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。 国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段, 即准备期( ChatGPT发布后国内产学研迅速形成大模型共识) 、 成长期( 国内大模型数量和质量开始逐渐增长) 、 爆发期( 各行各业开源闭源大模型层出不穷, 形成百模大战的竞争态势) 。

2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估

第二部分:测评体系、 方法说明

中 文 语 言 理 解 测 评 基 准 C L U E ( T h e C h i n e s e L a n g u a g eUnderstanding Evaluation) 是致力于科学、 客观、 中立的语言模型评测基准, 发起于2019年。 陆续推出CLUE、 FewCLUE、 KgCLUE、DataCLUE等广为引用的测评基准。SuperCLUE是大模型时代CLUE基准的发展和延续。 聚焦于通用大模型的综 合 性 测 评 。 传 统 语 言 模 型 测 评 往 往 局 限 于 学 术 范 围 的 单 轮 选 择 题 ,SuperCLUE根据多年的测评经验, 基于通用大模型在学术、 产业与用户侧的广泛应用, 构建了多层次、 多维度的综合性测评基准。

2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估 2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估 2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估

第三部分:大模型测评结果

1、SuperCLUE模型象限

2、国内外大模型差距

3、国内大模型竞争格局

4、大模型对战胜率分布图

5、四大维度测评结果及示例( 语言理解与生成、 专业技能与知识、 工具使用、 传统安全)

2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估 2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估 2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估 2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估 2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估 2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估 2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估 2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估 2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估

第四部分:优秀模型案例介绍

2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估 2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估 2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估 2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估 2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估 2023中文大模型基准测评报告— ChatGPT发布一周年,中文大模型进展评估

CLUE团队介绍:

中文语言理解测评基准CLUE发起于2019年, 是一个致力于AI评测基准、 AI数据集开源的开发者社区, 旨在建立科学、 客观、 中立的AI评测基准, 助力可控、 持续的通用人工智能发展。
通过多年的数据集、 AI工具包、 开源模型研发及测评研究, 形成了CLUE、 FewCLUE、 KgCLUE、SuperCLUE等多维度的语言模型评测基准。 CLUE为大模型研发机构,及不同垂直领域企业、 不同场景用户, 提供完整的AI评估体系, 助力中文AI研发及落地应用。

服务内容:

• 通用大模型内测服务: 提供大模型综合性评测服务 , 输出全方位的评测报告, 包括但不限于多维度测评结果、 横向对比、 典型示例、 模型优化建议。
• 行业大模型评估服务: 测评大模型在行业落地应用效果, 包括但不限于汽车、 手机、 金融、 工业、 教育、 医疗等行业大模型应用能力。
• 模型安全能力评测: 主要聚焦5大类安全风险测评, 包括但不限于违法犯罪、 个人隐私、 知识产权保护、 歧视与偏见等30多个子维度的安全评估
• 模型专项能力评测: 为企业提供模型专项能力测评服务, 如中文Agent能力测评、 多模态能力测评、 个性化角色扮演能力测评等专项大模型测评。

© 版权声明

相关文章

暂无评论

暂无评论...