AI新闻

已选标签:
多模态AI
数学突破
12月 12日
20 条新闻
19:38

中国首个全自主无人化人形机器人导览解决方案发布

北京人形机器人创新中心日前发布全国首个全自主无人化人形机器人导览解决方案。该方案深度整合全自主导览、拟人化交互、多机调度、全局IOT联动等关键能力,可覆盖展厅导览、商场导购、业务讲解、文旅景区等多元场景。此次解决方案的发布,标志着人形机器人导览正式迈入“全自主、无人化”的新阶段。未来,该方案可广泛应用于展厅导览、商场导购、业务讲解、文旅景区等场景,通过多机协同与全域联动,为用户带来更专业、更生动的智能服务体验。(央视新闻)

来源:钛媒体

19:38

花10亿美元,迪士尼让AI来拍“短片”了

迪士尼与OpenAI达成深度合作,授权超过200个IP元素用于Sora和ChatGPT Images中,标志着娱乐行业进入AI工业化阶段。通过生成式AI技术,粉丝可以轻松创作包含迪士尼角色的短视频和静态图像,并有机会在Disney+上展示。此次合作不仅改变了IP运营逻辑,还可能影响未来剧集生命周期评估标准。

来源:36氪

18:36

谷歌最新 Gemini Agent 爆击GPT-5.2?人类最后考试得分见分晓,网友:Altman又该发“红色警报”了

谷歌最新 Gemini Agent 爆击GPT-5.2?人类最后考试得分见分晓,网友:Altman又该发“红色警报”了

谷歌与OpenAI几乎同时发布重磅更新,分别推出Gemini Deep Research Agent和GPT-5.2。Gemini Deep Research基于Gemini 3 Pro构建,具备多步强化学习优化决策序列、超大规模上下文处理能力及可追溯引用来源等优势,在长链推理任务中表现突出。此外,谷歌还开源了DeepSearchQA基准测试,并提供了Interactions API,以增强智能体的交互控制能力。双方在基础模型能力和应用生态主导权上的竞争愈发激烈。

来源:36氪

18:36

实测 GPT-5.2 :价格暴涨能力微涨,凭什么反击 Gemini

实测 GPT-5.2 :价格暴涨能力微涨,凭什么反击 Gemini

GPT-5.2发布,包含Instant、Thinking和Pro三个版本,其在多模态理解和推理能力上显著提升,特别是在专业任务处理与3D建模方面表现优异。尽管响应时间变长,但准确性和复杂任务处理能力增强。知识更新至2025年8月。编程测试中,GPT-5.2展示了强大的代码生成能力,但在某些特定场景下仍落后于Claude。价格方面,GPT-5.2较前代上涨约40%。

来源:36氪

17:34

AI版「互联网协议」面世,豆包手机们再也不怕被「封禁」了?

AI版「互联网协议」面世,豆包手机们再也不怕被「封禁」了?

新闻探讨了GUI Agent与MCP协议在智能体AI领域的应用及挑战。GUI Agent通过模拟用户操作,直接在图形界面上执行任务,但面临系统权限、平台秩序和安全边界的问题。相比之下,MCP协议提供了一种统一的接口标准,降低了大模型与外部系统的集成门槛,为智能体AI建立了清晰的权限和边界,被视为未来AI互联网协议的标准。

来源:36氪

16:32

里程碑时刻,首个100B扩散语言模型来了,技术报告揭秘背后细节

里程碑时刻,首个100B扩散语言模型来了,技术报告揭秘背后细节

扩散语言模型(dLLM)在短时间内实现了从16B到100B参数规模的飞跃,展现出超越传统自回归模型的潜力。蚂蚁集团联合多所高校推出的LLaDA2.0系列模型采用MoE架构,在多个复杂任务上表现优异。通过持续预训练策略和系统化后训练流程,成功将AR模型平滑转化为dLLM,并解决了长文本生成效率低下的问题。

来源:36氪

16:32

中国制造的「领航样本」,为何藏在海康威视智能工厂里?

中国制造的「领航样本」,为何藏在海康威视智能工厂里?

海康威视智能工厂通过自研的AI技术,包括工业视觉设备、柔性机械臂、移动机器人及调度系统、多模态感知与大模型等,实现了多品种小批量大规模定制化生产。其智能化进程从数字化协同到数据驱动决策,再到基于大模型和多模态感知的系统智能阶段,展示了中国制造在复杂场景下的创新能力与发展潜力。

来源:36氪

15:30

港中文联手美团开源“视觉推理通才”,图像视频10类任务一网打尽

港中文联手美团开源“视觉推理通才”,图像视频10类任务一网打尽

香港中文大学MMLab与美团研究团队开源OneThinker,一个基于RL的多模态视觉推理通才模型,覆盖图像与视频十类核心任务,在31项主流视觉任务测试中表现优异。通过构建统一数据体系和优化多任务训练方法(如EMA-GRPO算法),OneThinker解决了传统RL模型在单一模态或任务上的局限性,展现了跨模态、多任务的通用理解和零样本能力,为实现通用视觉智能提供了新路径。

来源:36氪

15:30

跳过“逐字生成”,蚂蚁集团赵俊博:扩散模型让我们能直接修改Token

跳过“逐字生成”,蚂蚁集团赵俊博:扩散模型让我们能直接修改Token

赵俊博在量子位MEET2026智能未来大会上介绍了扩散架构语言模型LLaDA 2.0,该模型采用完形填空式预测机制,相比自回归模型,在相同计算量下参数规模更小、生成速度更快且成本更低。团队已开源LLaDA 2.0,并验证其可扩展至千亿规模。尽管扩散语言模型的训练与推理仍处于早期阶段,但其独特优势吸引了谷歌、字节等巨头及初创公司的积极布局。

来源:36氪

15:30

OpenAI十周年「血色浪漫」:11位联创出走8位,奥特曼深夜发文

OpenAI十周年「血色浪漫」:11位联创出走8位,奥特曼深夜发文

OpenAI成立十年,从一个默默无闻的初创公司成长为全球领先的AI巨头。回顾其发展历程,关键转折点包括2017年发现语言模型中的‘情感神经元’及后续对齐人类价值的研究。GPT系列的成功展示了深度学习与大规模算力结合的巨大潜力。如今,OpenAI正朝着实现通用人工智能(AGI)的目标迈进,同时强调安全与伦理的重要性。

来源:36氪

15:28

中国机器人比赛应急救援,美国网友Reddit破防:我们还在给机器狗化妆拍段子

中国机器人比赛应急救援,美国网友Reddit破防:我们还在给机器狗化妆拍段子

中国在具身智能领域取得显著进展,通过GDPS 2025大赛展示了机器人在应急救援等实际应用场景中的能力。美国网友对此表现出焦虑与关注,认为中国已超越理论阶段进入实地部署。得益于上海强大的产业链支持及政策推动,中国企业在量产和多场景应用方面领先,这标志着中国具身智能技术从展示走向日常。

来源:量子位

14:39

GPT-5.2果然反超谷歌Gemini 3 Pro!北大数院校友核心贡献

GPT-5.2果然反超谷歌Gemini 3 Pro!北大数院校友核心贡献

GPT-5.2在多个实用领域超越谷歌Gemini 3 Pro,特别是在人力资源、代码编写、长文档处理及视觉理解方面。其在GDPval测试中展现出高经济价值任务的卓越能力,如投行分析师电子表格建模任务上得分提升9.3%。此外,GPT-5.2在SWE-bench Verified上的代码能力达到80%,并首次在MRCRv2评测中实现接近100%准确率。北大数院校友等新加入OpenAI的人才为核心贡献者。

来源:量子位

13:56

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

OpenAI与迪士尼达成合作,通过向迪士尼出售价值10亿美元的股权获得其旗下200多个热门IP角色授权,包括米老鼠、钢铁侠等。这些角色将被用于OpenAI的视频生成工具Sora和ChatGPT Images中,增强内容创作能力。此次合作不仅解决了版权问题,还为Sora APP提供了新的增长点,改善了用户留存率低的问题。同时,迪士尼计划利用OpenAI的技术开发新产品和服务,进一步推动人工智能技术在娱乐行业的应用。

来源:量子位

13:26

迪士尼同意向OpenAI投资10亿美元并达成授权协议

华特迪士尼公司与OpenAI达成协议,迪士尼将成为OpenAI短视频生成式AI平台Sora的首个主要内容授权合作伙伴。根据这项为期三年的新授权协议,Sora将能够生成由用户提示的短视频内容,供粉丝观看和分享。这些视频将取材于迪士尼、漫威、皮克斯和星球大战旗下超过200个动画角色、面具角色和生物角色,涵盖服装、道具、载具及标志性场景。生成的视频和图像预计将于2026年初开始提供,但不包含任何演员的肖像和声音。

根据协议条款,迪士尼将向OpenAI进行10亿美元的股权投资,并获得认股权证,同时作为主要客户使用OpenAI的API和ChatGPT来构建新产品和供员工使用。(广角观察)

来源:钛媒体

12:38

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

赵俊博在MEET2026智能未来大会上介绍了蚂蚁集团押注扩散语言模型(dLLM)的最新进展。相比自回归模型,扩散架构允许直接修改token,理论上可实现更快生成速度与更低计算成本。团队已开源千亿参数规模的LLaDA 2.0,标志着扩散语言模型的重要里程碑。尽管该领域仍处于早期阶段,但其发展潜力巨大,正吸引包括谷歌、字节跳动等巨头及初创公司的积极布局。

来源:量子位

12:24

苹果 AI 眼镜深度爆料汇总:重量低至 40g,2026 发布

苹果 AI 眼镜深度爆料汇总:重量低至 40g,2026 发布

苹果正在研发的新一代智能眼镜Apple AI Glasses,预计在2026-2027年推出。这款设备将采用无屏幕设计,专注于AI、Siri与摄像头的结合,以实现更自然的视觉交互和情境感知。通过与iPhone联动提供算力支持,确保轻便性与全天候续航。面对Meta和Google的竞争,苹果凭借其隐私保护优势及生态整合能力,有望重新定义智能眼镜市场。

来源:36氪

12:24

迪士尼为什么要投资OpenAI 10亿美元?

迪士尼为什么要投资OpenAI 10亿美元?

迪士尼向OpenAI投资10亿美元并达成三年授权协议,利用OpenAI的多模态模型Sora和ChatGPT Images生成社交短视频及图像,涵盖迪士尼、漫威等角色。迪士尼将借助OpenAI的API构建新产品,包括Disney+平台的应用,并在内部部署ChatGPT。此次合作旨在通过负责任地使用生成式AI技术提升内容创作效率与体验,同时应对行业变革挑战。

来源:36氪

12:24

谷歌最新版「深度研究」反击GPT-5.2

谷歌最新版「深度研究」反击GPT-5.2

谷歌与OpenAI在AI领域展开激烈竞争,双方相继发布GPT-5.2和Gemini 3 Pro。新版Gemini Deep Research Agent通过多步强化学习训练,在准确性、减少幻觉及处理复杂信息环境方面取得显著进展。此外,谷歌推出开源基准DeepSearchQA和交互API,后者支持有状态的智能体交互模式,简化开发者构建AI应用的过程。

来源:36氪