商汤 视觉中国 资料图
AI(人工智能)软件公司商汤发布新一代大模型,持续押注多模态和日常场景落地。
4月10日,商汤集团股份有限公司(商汤-W,0020.HK)在技术交流日上发布新一代多模态大模型系列“日日新SenseNova V6”,以及AI基础设施“商汤大装置SenseCore 2.0”。商汤科技集团董事会执行主席兼CEO徐立在演讲中表示,从技术层面来看,多模态模型是走向通用人工智能(AGI)的必经之路;在场景落地方面,“AI之道在于百姓之日用”,随着通用性的增强,AI将能够走入更多人的日常生活。
徐立表示,多模态模型的发展和AGI的发展“画上了约等号”。他解释道,首先,纯粹的语言模型难以真正地、完整地表达人类的智能;其次,从数据角度看,多模态能够补充互联网上文本数据的不足,挖掘蕴藏在图像、视频等非文本数据中的知识:“从数据量来讲,多模态是补充人类智能的核心要素。而从学习方法上来讲,(多模态)也是效率更高的。”
据介绍,通过构造多模态的强思维链数据和搭建多模态强化学习的语境,和去年发布的日日新大模型5.0及5.5相比,日日新6.0在多模态方面表现更加出众,并针对推理能力进行了强化。
为满足不同场景的需要,日日新6.0包含若干版本。其中,原生多模态通用大模型SenseNova V6 Pro采用了6200亿参数的混合专家(MoE)架构,SenseNova V6 Reasoner Pro在前者基础上经过了多模态长思维链训练和多模态增强学习,具有突出的多模态融合推理能力,在纯文本和多模态推理任务上对标OpenAI的o1模型和谷歌的Gemini 2.0 Flash-thinking。
此外,该系列中还包括视频理解模型SenseNova V6 Video和轻量级的全模态交互模型SenseNova V6 Omni:V6 Video支持长达10分钟的视频的完整输入,能够对视频进行深入的理解、分析和推理;V6 Omni则支持实时交互但保持优秀的综合性能,对标OpenAI的GPT 4o-mini。
近年来,商汤在生成式AI和多模态AI领域投入巨大。对此,商汤联合创始人、执行董事及人工智能基础设施和大模型首席科学家林达华在接受澎湃新闻记者采访时表示,这并不是单纯的资源堆叠,而是基于商汤“三位一体(AI基础设施-大模型-应用)”战略的系统性规划:“我们会从多个业务场景进行分析,针对如何打穿这些场景、形成高业务价值,凝练出最关键的技术能力,以此指导模型的迭代。”
林达华指出,Meta近期发布的Llama 4、乃至OpenAI的GPT-4.5其实都未能展现出让人非常惊艳的性能,从这些案例中可以看出,传统的缩放法则(scaling law)逐渐进入了一个相对饱和的状态。
但是,林达华认为,模型能力其实还有很多其他的成长方式,例如更长思维链的注入、更高效的增强学习。因此,比起算力,商汤现在更关注通过技术优化来提升模型效率:“对于我们的商业价值、对于模型的未来发展来说,商汤要找到投入产出的斜率最高的一条曲线,而不是去盲目地scale training(扩大训练规模)。”
在主题演讲中,徐立还在台上展现了诸多使用日日新6.0的日常案例,包括电商比价、辅导作业、剪辑视频、整理用户评价等等,突出模型在日常生活中的实用性。化用明代泰州学派代表人物王艮的名言“圣人之道,无异于百姓日用”,徐立表示,AI之“道”也是如此。
徐立进一步指出,商汤发展AI的目标便是“在真实的环境中解决那些日常烦琐、但是重要的行业需求”:“当AI聚集了人类现有的大量平均水平的知识之后,它就能够运用触类旁通的能力,为开放问题形成一种真正意义上的确定性,完成从模型到客户使用的最后一公里。”
在技术交流日上,商汤宣布了与多家软硬件企业的战略签约,其中包括具身智能企业傅利叶。据介绍,基于商汤的SenseNova V6 Omni模型,傅利叶的机器人GRx系列可以通过融合图像、视频、语音和文本信息理解环境,实现更生动、更智能的人机互动体验。
10日当天,商汤股价涨3.68%收于每股1.41港元,总市值522亿港元。
有话要说...