乐天发布“日本最大高性能AI模型”,其配置文件显示基于DeepSeek V3架构 | 加密百科深度分析
加密百科独家解读
这件事简单说,就是一家日本巨头公司,用了一个中国顶尖的开源AI“骨架”,给它灌输了海量日语数据,造出了一个专精日语的“大脑”。这背后有几个关键点,对科技和开源生态影响很大。
第一,巨头们正在“魔改”开源模型。 乐天没有从头训练一个6700亿参数的巨型模型,那需要天文数字的算力和资金。他们很聪明地找到了一个现成的、世界顶级的基础模型——DeepSeek V3,然后在这个强大的“通用大脑”基础上,进行专门的日语训练和优化。这就像拿到了一辆顶级跑车的底盘和引擎(开源架构),然后自己根据日本路况(日语场景)调校悬挂、内饰和导航系统。这成了大公司快速追赶AI前沿的高效策略。
第二,“开源”是双刃剑,也是快车道。 DeepSeek选择开源自己的核心技术,让乐天这样的公司能够合法合规地直接使用。这加速了全球AI技术的扩散和应用落地。但同时,这也引出一个问题:当一家公司基于他人的核心架构做出成果时,该如何界定其“最大”或“自主”?乐天强调“日本最大”和“高性能”,但社区通过代码配置文件发现了其中国架构的根源。这体现了开源世界的透明性,也提醒我们,在AI时代,真正的竞争不仅是模型大小,更是数据质量、工程优化和应用落地的能力。
第三,国家项目与算力支持是关键推手。 这个模型是日本政府GENIAC项目的成果之一,并获得了官方算力支持。这说明各国政府已将AI基础设施视同过去的电网、互联网,是必须投入的“国家能力”。在日本本土缺乏庞大算力集群的背景下,利用开源技术,结合国家力量进行定向突破,是一条务实路径。
对普通人的影响: 短期内,你可能会看到更聪明、更懂日本文化和语言习惯的AI助手、客服和翻译工具在日本普及。长期看,这种基于开源巨模型的“国家/地区定制”模式可能会成为常态,各地都会出现更懂本地语言和文化的AI,打破少数几个通用大模型的垄断。同时,这也预示着AI领域的竞争,将从单纯的“模型军备竞赛”,更多转向数据、垂直领域优化和商业化能力的比拼。
背景资料 (原快讯)
乐天集团发布开源模型 Rakuten AI 3.0,并称其为“日本最大高性能 AI 模型”。该模型采用 MoE 架构,总参数 6710 亿,每次推理激活 370 亿参数,上下文窗口为 128K,针对日语场景进行优化,在多项日语基准测试中表现优于 GPT-4o。
该模型为日本经济产业省与新能源产业技术综合开发机构(NEDO)推进的 GENIAC 项目成果之一,获得部分算力支持。乐天未披露基础模型来源,仅表示基于开源社区成果构建。
社区在 HuggingFace 模型文件中发现,其 config.json 包含“deepseek_v3”及相关架构字段,且参数规模与上下文配置与 DeepSeek V3 一致,显示该模型或基于 DeepSeek V3 进行日语微调。
注:以上背景资料自公开行业资讯,加密百科网仅作科普解读。
