标签筛选

日期筛选

日

一

二

三

四

五

六

29

30

31

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

01

02

03

04

05

06

07

08

09

1月

38 条

2月

1 条

3月

3 条

4月

0 条

5月

0 条

6月

0 条

7月

0 条

8月

0 条

9月

0 条

10月

0 条

11月

0 条

12月

0 条

AI新闻

已选标签:

多模态AI

12月 12日

20 条新闻

16:32

中国制造的「领航样本」，为何藏在海康威视智能工厂里？

中国制造的「领航样本」，为何藏在海康威视智能工厂里？

海康威视智能工厂通过自研的AI技术，包括工业视觉设备、柔性机械臂、移动机器人及调度系统、多模态感知与大模型等，实现了多品种小批量大规模定制化生产。其智能化进程从数字化协同到数据驱动决策，再到基于大模型和多模态感知的系统智能阶段，展示了中国制造在复杂场景下的创新能力与发展潜力。

来源：36氪

15:30

港中文联手美团开源“视觉推理通才”，图像视频10类任务一网打尽

港中文联手美团开源“视觉推理通才”，图像视频10类任务一网打尽

香港中文大学MMLab与美团研究团队开源OneThinker，一个基于RL的多模态视觉推理通才模型，覆盖图像与视频十类核心任务，在31项主流视觉任务测试中表现优异。通过构建统一数据体系和优化多任务训练方法（如EMA-GRPO算法），OneThinker解决了传统RL模型在单一模态或任务上的局限性，展现了跨模态、多任务的通用理解和零样本能力，为实现通用视觉智能提供了新路径。

来源：36氪

15:30

跳过“逐字生成”，蚂蚁集团赵俊博：扩散模型让我们能直接修改Token

跳过“逐字生成”，蚂蚁集团赵俊博：扩散模型让我们能直接修改Token

赵俊博在量子位MEET2026智能未来大会上介绍了扩散架构语言模型LLaDA 2.0，该模型采用完形填空式预测机制，相比自回归模型，在相同计算量下参数规模更小、生成速度更快且成本更低。团队已开源LLaDA 2.0，并验证其可扩展至千亿规模。尽管扩散语言模型的训练与推理仍处于早期阶段，但其独特优势吸引了谷歌、字节等巨头及初创公司的积极布局。

来源：36氪

15:30

OpenAI十周年「血色浪漫」：11位联创出走8位，奥特曼深夜发文

OpenAI十周年「血色浪漫」：11位联创出走8位，奥特曼深夜发文

OpenAI成立十年，从一个默默无闻的初创公司成长为全球领先的AI巨头。回顾其发展历程，关键转折点包括2017年发现语言模型中的‘情感神经元’及后续对齐人类价值的研究。GPT系列的成功展示了深度学习与大规模算力结合的巨大潜力。如今，OpenAI正朝着实现通用人工智能（AGI）的目标迈进，同时强调安全与伦理的重要性。

来源：36氪

15:28

中国机器人比赛应急救援，美国网友Reddit破防：我们还在给机器狗化妆拍段子

中国机器人比赛应急救援，美国网友Reddit破防：我们还在给机器狗化妆拍段子

中国在具身智能领域取得显著进展，通过GDPS 2025大赛展示了机器人在应急救援等实际应用场景中的能力。美国网友对此表现出焦虑与关注，认为中国已超越理论阶段进入实地部署。得益于上海强大的产业链支持及政策推动，中国企业在量产和多场景应用方面领先，这标志着中国具身智能技术从展示走向日常。

来源：量子位

14:39

GPT-5.2果然反超谷歌Gemini 3 Pro！北大数院校友核心贡献

GPT-5.2果然反超谷歌Gemini 3 Pro！北大数院校友核心贡献

GPT-5.2在多个实用领域超越谷歌Gemini 3 Pro，特别是在人力资源、代码编写、长文档处理及视觉理解方面。其在GDPval测试中展现出高经济价值任务的卓越能力，如投行分析师电子表格建模任务上得分提升9.3%。此外，GPT-5.2在SWE-bench Verified上的代码能力达到80%，并首次在MRCRv2评测中实现接近100%准确率。北大数院校友等新加入OpenAI的人才为核心贡献者。

来源：量子位

13:56

10亿美元OpenAI股权兑换迪士尼版权！米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权！米老鼠救Sora来了

OpenAI与迪士尼达成合作，通过向迪士尼出售价值10亿美元的股权获得其旗下200多个热门IP角色授权，包括米老鼠、钢铁侠等。这些角色将被用于OpenAI的视频生成工具Sora和ChatGPT Images中，增强内容创作能力。此次合作不仅解决了版权问题，还为Sora APP提供了新的增长点，改善了用户留存率低的问题。同时，迪士尼计划利用OpenAI的技术开发新产品和服务，进一步推动人工智能技术在娱乐行业的应用。

来源：量子位

13:26

迪士尼同意向OpenAI投资10亿美元并达成授权协议

华特迪士尼公司与OpenAI达成协议，迪士尼将成为OpenAI短视频生成式AI平台Sora的首个主要内容授权合作伙伴。根据这项为期三年的新授权协议，Sora将能够生成由用户提示的短视频内容，供粉丝观看和分享。这些视频将取材于迪士尼、漫威、皮克斯和星球大战旗下超过200个动画角色、面具角色和生物角色，涵盖服装、道具、载具及标志性场景。生成的视频和图像预计将于2026年初开始提供，但不包含任何演员的肖像和声音。

根据协议条款，迪士尼将向OpenAI进行10亿美元的股权投资，并获得认股权证，同时作为主要客户使用OpenAI的API和ChatGPT来构建新产品和供员工使用。（广角观察）

来源：钛媒体

12:38

跳过“逐字生成”！蚂蚁集团赵俊博：扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”！蚂蚁集团赵俊博：扩散模型让我们能直接修改Token | MEET2026

赵俊博在MEET2026智能未来大会上介绍了蚂蚁集团押注扩散语言模型（dLLM）的最新进展。相比自回归模型，扩散架构允许直接修改token，理论上可实现更快生成速度与更低计算成本。团队已开源千亿参数规模的LLaDA 2.0，标志着扩散语言模型的重要里程碑。尽管该领域仍处于早期阶段，但其发展潜力巨大，正吸引包括谷歌、字节跳动等巨头及初创公司的积极布局。

来源：量子位

12:24

苹果 AI 眼镜深度爆料汇总：重量低至 40g，2026 发布

苹果 AI 眼镜深度爆料汇总：重量低至 40g，2026 发布

苹果正在研发的新一代智能眼镜Apple AI Glasses，预计在2026-2027年推出。这款设备将采用无屏幕设计，专注于AI、Siri与摄像头的结合，以实现更自然的视觉交互和情境感知。通过与iPhone联动提供算力支持，确保轻便性与全天候续航。面对Meta和Google的竞争，苹果凭借其隐私保护优势及生态整合能力，有望重新定义智能眼镜市场。

来源：36氪

12:24

迪士尼为什么要投资OpenAI 10亿美元？

迪士尼为什么要投资OpenAI 10亿美元？

迪士尼向OpenAI投资10亿美元并达成三年授权协议，利用OpenAI的多模态模型Sora和ChatGPT Images生成社交短视频及图像，涵盖迪士尼、漫威等角色。迪士尼将借助OpenAI的API构建新产品，包括Disney+平台的应用，并在内部部署ChatGPT。此次合作旨在通过负责任地使用生成式AI技术提升内容创作效率与体验，同时应对行业变革挑战。

来源：36氪

12:24

谷歌最新版「深度研究」反击GPT-5.2

谷歌最新版「深度研究」反击GPT-5.2

谷歌与OpenAI在AI领域展开激烈竞争，双方相继发布GPT-5.2和Gemini 3 Pro。新版Gemini Deep Research Agent通过多步强化学习训练，在准确性、减少幻觉及处理复杂信息环境方面取得显著进展。此外，谷歌推出开源基准DeepSearchQA和交互API，后者支持有状态的智能体交互模式，简化开发者构建AI应用的过程。

来源：36氪

12:24

脑子是个便宜货

GPT-5.2 发布，其在交互、语气及多任务处理上表现突出，但整体智能水平仍逊于 Gemini 3 Pro。a16z 报告指出，未来 SaaS 公司仅靠存储数据难以维持竞争力，AI 将通过跨平台整合非结构化数据提供行动建议；产品设计应转向为 AI 代理服务而非人类用户；制造业和能源行业将是 AI 落地的重要场景；消费者 AI 正从工具型向情感陪伴型转变。

来源：36氪

11:22

英伟达H100太空“狂飙”，马斯克1.5万亿美金IPO终极引爆，王坚断言”这才是AI终极战场”

英伟达H100芯片首次在太空成功运行AI模型，标志着‘天算时代’的开启。SpaceX计划通过史上最大规模IPO募集资金用于开发基于太空的数据中心，推动商业航天与AI深度融合。Starcloud等初创公司正积极部署太空数据中心以应对地面算力瓶颈，利用太阳能和低温环境提升计算效率。尽管面临技术挑战，太空算力被视为解决AI时代能源限制的关键途径。

来源：36氪

10:20

别让米其林主厨削土豆，英伟达用“小脑指挥大脑”，重构AGI生产力

别让米其林主厨削土豆，英伟达用“小脑指挥大脑”，重构AGI生产力

英伟达推出8B参数的Orchestrator模型，通过组合工具实现降本增效，在HLE等基准测试中超越GPT-5，成本仅为后者30%。该模型采用强化学习训练，能精准调度不同功能的小模型和工具，显著提升效率与成本效益，代表了从单一强大模型向复合AI系统转变的新趋势。

来源：36氪

10:20

我的男友是虚拟的，但他很快就会变成现实｜深氪

我的男友是虚拟的，但他很快就会变成现实｜深氪

文章探讨了AI技术在乙女游戏中的应用，特别是通过大语言模型和计算机视觉技术增强游戏角色的真实感与互动性。如《恋与深空》利用Unity2019平台及自定义渲染管线实现高质量3D效果，并结合ChatGPT等AI工具提供个性化对话体验，满足玩家情感需求。这不仅推动了游戏行业的创新发展，也反映了AI技术在改善人类孤独感方面的潜力。

来源：36氪

10:20

GPT-5.2 上线，迪士尼投出 10 亿美元：AI 不止提效，还要讲故事

GPT-5.2 上线，迪士尼投出 10 亿美元：AI 不止提效，还要讲故事

OpenAI 发布 GPT-5.2，显著提升专业任务执行能力与业务场景适配度，特别是在职业任务和工具调用方面展现卓越性能。与此同时，迪士尼宣布与 OpenAI 达成三年期授权协议，并投资 10 亿美元，允许 Sora 使用超过 200 个知名角色生成内容，标志着 AI 正式成为内容创作伙伴而非单纯提效工具。双方合作旨在构建一个完整的创作者操作系统，涵盖从语言理解到视觉生成的全链路内容生态，预示着 AI 在内容创作领域的应用将进入新阶段。

来源：36氪

09:18

Meta版“甄嬛传”，28岁天才上位，掌管6千亿命脉，AI教父愤然出走

Meta版“甄嬛传”，28岁天才上位，掌管6千亿命脉，AI教父愤然出走

Meta内部因AI战略分歧引发权力斗争，开源策略受质疑。扎克伯格寄希望于28岁的Alexandr Wang带领TBD Lab团队突破困境，但面临新旧势力冲突、算力分配争议及产品开发流程适应性问题。最新模型Avocado或将不再开源，Meta正重新配置资源以应对挑战。

来源：36氪

09:18

一文读懂GPT-5.2 : 直指“经济价值”，硬刚Gemini3的剧情未出现

一文读懂GPT-5.2 : 直指“经济价值”，硬刚Gemini3的剧情未出现

OpenAI发布GPT-5.2，强调其在专业知识工作和企业级应用中的性能跃升，特别是在电子表格处理、演示文稿制作、代码编写等方面超越或持平人类专家。新模型分为Instant、Thinking、Pro三个版本，旨在满足从日常任务到复杂科研的不同需求。GPT-5.2在多工具编排任务、长文本理解和视觉理解方面表现出色，为企业提供了更高效稳定的智能解决方案。

来源：36氪

08:18

谷歌发布了迄今为止最强大的AI研究代理——就在同一天，OpenAI推出了GPT-5.2

谷歌发布了迄今为止最强大的AI研究代理——就在同一天，OpenAI推出了GPT-5.2

Google 发布了基于 Gemini 3 Pro 的新版研究代理 Gemini Deep Research，该代理不仅能够生成研究报告，还允许开发者通过新的 Interactions API 将其研究能力嵌入到自己的应用中。此工具适用于从尽职调查到药物毒性安全研究等多种任务，并将被整合进 Google Search、Google Finance 等服务中。此外，Google 引入了名为 DeepSearchQA 的新基准来测试代理在复杂多步骤信息检索任务中的表现，以证明其在减少 AI 幻觉方面的进步。

来源：TechCrunch AI

« 上一页
1
…
3
4
5
6
7
…
19
下一页 »