新京报贝壳财经讯(记者罗亦丹)7月10日,2025贝壳财经年会开幕。在主题为“建设‘开源之都’:智AI未来,生态共澎湃”的首场论坛上,商汤科技集团大模型综合商务部执行商务总监李星冶回顾了人工智能从1.0时代到2.0时代的演变,并重点介绍了商汤在多模态交互技术上的突破与应用落地。他强调,人工智能正从传统的计算机视觉向“所见即所得”的多模态交互转型,这将深刻改变教育、文旅、客服等多个领域。

 

李星冶表示,在AI 1.0时代,商汤专注于计算机视觉技术,主要服务于政府和企业。

 

随着2023年大模型技术的兴起,AI进入2.0时代,商汤开始推动多模态交互的创新。李星冶解释,这不仅仅是文字指令的识别,而且是基于“所见即所得”的理念,整合视频、图像、语音等多种模态,实现与人类的实时互动。在现场,李星冶展示了通过画出一个“太乙真人”的卡通形象,唤起太乙真人语音并进行实时互动的场景。

 

李星冶详细介绍了多模态交互的落地成果。在教育领域,商汤与学习机厂商合作,开发了“所见即所得”的交互设备。孩子佩戴设备后,算法能实时感知手写解题过程,识别错误并提供巧妙解法。针对低幼儿童,系统支持指读绘本,将图片转化为故事并互动。目前,商汤已与10所左右学校合作,打造智能校园助手,处理课程安排、成绩查询等功能。

 

此外,商汤科技的智能体应用是另一亮点。李星冶举例称,在仓库租赁场景中,算法分析行业数据辅助BD销售,生成租约管理方案等功能。在客服领域,商汤与知名运营商合作,打造高效智能体。在智能家居方面,提供家庭互动功能,以人工智能的技术丰富家庭交互生活。

 

“多模态大模型的优势正在于此:让交互不再局限于识别文字指令,更能通过‘所见即所得’的方式,通过视觉等多维度信息,让大模型与人之间的交互更顺畅。”李星冶说。


编辑 杨娟娟

校对 柳宝庆