 | | 0 |
| /kakao |
Kakao20日表示,更新了自主研发的新一代语言模型"Kanana-2",并追加公开了4个模型。
此次公开的4个模型的特点是,大幅加强了高效率、低成本的性能革新、实现实质性代理性AI的工具呼叫能力。不是最新的超高价基础设施,而是在NVIDIA A100水平的通用图像处理装置(GPU)上也进行了最优化,使中小企业和学界研究人员也能毫无费用负担地利用高性能AI,提高了实用性。
Kanana-2效率性的核心是"专家混合"架构。整体参数为32B(320亿个)规模,在维持巨大模型的高智能的同时,在实际推论时,只激活符合情况的3B(30亿个)参数,划时代地提高了运算效率。另外,还亲自开发了学习MoE模型所必需的多个内核,在不损失性能的情况下提高了学习速度,并取得了大幅降低存储器使用量的成果。
学习阶段也得到了提高。在事前学习和事后学习之间新设了"Mid训练"阶段,为了防止AI模型在学习新信息时忘记现有知识的致命遗忘现象,引进了"回放"技术。
Kakao以该项技术为基础,在Hugging Face上追加公开了从"基本(Base)"模型到"履行指示"模型、"推论特殊化"模型、中训练模型等共4个模型。
KAKAO方面强调,超越单纯的对话型AI,实现了能够进行实质性业务的代理AI。
通过集中学习高品质多转工具呼叫数据,大幅加强指示履行和工具呼叫能力,可以准确理解复杂的用户指示,自行选择和呼叫适当的工具。
Kakao Canana成果负责人金炳学表示:"全新Kanana-2是对'如何在没有高价基础设施的情况下也能实现实用的代理AI'进行激烈思考的结果,期待在普遍的基础设施环境下也能实现高效率的模型以开放源代码公开,成为国内AI研究开发生态系统发展和企业引进AI的新对策。"