AI新闻

已选标签:
多模态AI
数学突破
12月 12日
17 条新闻
13:26

迪士尼同意向OpenAI投资10亿美元并达成授权协议

华特迪士尼公司与OpenAI达成协议,迪士尼将成为OpenAI短视频生成式AI平台Sora的首个主要内容授权合作伙伴。根据这项为期三年的新授权协议,Sora将能够生成由用户提示的短视频内容,供粉丝观看和分享。这些视频将取材于迪士尼、漫威、皮克斯和星球大战旗下超过200个动画角色、面具角色和生物角色,涵盖服装、道具、载具及标志性场景。生成的视频和图像预计将于2026年初开始提供,但不包含任何演员的肖像和声音。

根据协议条款,迪士尼将向OpenAI进行10亿美元的股权投资,并获得认股权证,同时作为主要客户使用OpenAI的API和ChatGPT来构建新产品和供员工使用。(广角观察)

来源:钛媒体

12:38

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

赵俊博在MEET2026智能未来大会上介绍了蚂蚁集团押注扩散语言模型(dLLM)的最新进展。相比自回归模型,扩散架构允许直接修改token,理论上可实现更快生成速度与更低计算成本。团队已开源千亿参数规模的LLaDA 2.0,标志着扩散语言模型的重要里程碑。尽管该领域仍处于早期阶段,但其发展潜力巨大,正吸引包括谷歌、字节跳动等巨头及初创公司的积极布局。

来源:量子位

12:24

苹果 AI 眼镜深度爆料汇总:重量低至 40g,2026 发布

苹果 AI 眼镜深度爆料汇总:重量低至 40g,2026 发布

苹果正在研发的新一代智能眼镜Apple AI Glasses,预计在2026-2027年推出。这款设备将采用无屏幕设计,专注于AI、Siri与摄像头的结合,以实现更自然的视觉交互和情境感知。通过与iPhone联动提供算力支持,确保轻便性与全天候续航。面对Meta和Google的竞争,苹果凭借其隐私保护优势及生态整合能力,有望重新定义智能眼镜市场。

来源:36氪

12:24

迪士尼为什么要投资OpenAI 10亿美元?

迪士尼为什么要投资OpenAI 10亿美元?

迪士尼向OpenAI投资10亿美元并达成三年授权协议,利用OpenAI的多模态模型Sora和ChatGPT Images生成社交短视频及图像,涵盖迪士尼、漫威等角色。迪士尼将借助OpenAI的API构建新产品,包括Disney+平台的应用,并在内部部署ChatGPT。此次合作旨在通过负责任地使用生成式AI技术提升内容创作效率与体验,同时应对行业变革挑战。

来源:36氪

12:24

谷歌最新版「深度研究」反击GPT-5.2

谷歌最新版「深度研究」反击GPT-5.2

谷歌与OpenAI在AI领域展开激烈竞争,双方相继发布GPT-5.2和Gemini 3 Pro。新版Gemini Deep Research Agent通过多步强化学习训练,在准确性、减少幻觉及处理复杂信息环境方面取得显著进展。此外,谷歌推出开源基准DeepSearchQA和交互API,后者支持有状态的智能体交互模式,简化开发者构建AI应用的过程。

来源:36氪

12:24

脑子是个便宜货

GPT-5.2 发布,其在交互、语气及多任务处理上表现突出,但整体智能水平仍逊于 Gemini 3 Pro。a16z 报告指出,未来 SaaS 公司仅靠存储数据难以维持竞争力,AI 将通过跨平台整合非结构化数据提供行动建议;产品设计应转向为 AI 代理服务而非人类用户;制造业和能源行业将是 AI 落地的重要场景;消费者 AI 正从工具型向情感陪伴型转变。

来源:36氪

11:22

英伟达H100太空“狂飙”,马斯克1.5万亿美金IPO终极引爆,王坚断言”这才是AI终极战场”

英伟达H100芯片首次在太空成功运行AI模型,标志着‘天算时代’的开启。SpaceX计划通过史上最大规模IPO募集资金用于开发基于太空的数据中心,推动商业航天与AI深度融合。Starcloud等初创公司正积极部署太空数据中心以应对地面算力瓶颈,利用太阳能和低温环境提升计算效率。尽管面临技术挑战,太空算力被视为解决AI时代能源限制的关键途径。

来源:36氪

10:20

别让米其林主厨削土豆,英伟达用“小脑指挥大脑”,重构AGI生产力

别让米其林主厨削土豆,英伟达用“小脑指挥大脑”,重构AGI生产力

英伟达推出8B参数的Orchestrator模型,通过组合工具实现降本增效,在HLE等基准测试中超越GPT-5,成本仅为后者30%。该模型采用强化学习训练,能精准调度不同功能的小模型和工具,显著提升效率与成本效益,代表了从单一强大模型向复合AI系统转变的新趋势。

来源:36氪

10:20

我的男友是虚拟的,但他很快就会变成现实|深氪

我的男友是虚拟的,但他很快就会变成现实|深氪

文章探讨了AI技术在乙女游戏中的应用,特别是通过大语言模型和计算机视觉技术增强游戏角色的真实感与互动性。如《恋与深空》利用Unity2019平台及自定义渲染管线实现高质量3D效果,并结合ChatGPT等AI工具提供个性化对话体验,满足玩家情感需求。这不仅推动了游戏行业的创新发展,也反映了AI技术在改善人类孤独感方面的潜力。

来源:36氪

10:20

GPT-5.2 上线,迪士尼投出 10 亿美元:AI 不止提效,还要讲故事

GPT-5.2 上线,迪士尼投出 10 亿美元:AI 不止提效,还要讲故事

OpenAI 发布 GPT-5.2,显著提升专业任务执行能力与业务场景适配度,特别是在职业任务和工具调用方面展现卓越性能。与此同时,迪士尼宣布与 OpenAI 达成三年期授权协议,并投资 10 亿美元,允许 Sora 使用超过 200 个知名角色生成内容,标志着 AI 正式成为内容创作伙伴而非单纯提效工具。双方合作旨在构建一个完整的创作者操作系统,涵盖从语言理解到视觉生成的全链路内容生态,预示着 AI 在内容创作领域的应用将进入新阶段。

来源:36氪

09:18

一文读懂GPT-5.2 : 直指“经济价值”,硬刚Gemini3的剧情未出现

一文读懂GPT-5.2 : 直指“经济价值”,硬刚Gemini3的剧情未出现

OpenAI发布GPT-5.2,强调其在专业知识工作和企业级应用中的性能跃升,特别是在电子表格处理、演示文稿制作、代码编写等方面超越或持平人类专家。新模型分为Instant、Thinking、Pro三个版本,旨在满足从日常任务到复杂科研的不同需求。GPT-5.2在多工具编排任务、长文本理解和视觉理解方面表现出色,为企业提供了更高效稳定的智能解决方案。

来源:36氪

08:18

谷歌发布了迄今为止最强大的AI研究代理——就在同一天,OpenAI推出了GPT-5.2

谷歌发布了迄今为止最强大的AI研究代理——就在同一天,OpenAI推出了GPT-5.2

Google 发布了基于 Gemini 3 Pro 的新版研究代理 Gemini Deep Research,该代理不仅能够生成研究报告,还允许开发者通过新的 Interactions API 将其研究能力嵌入到自己的应用中。此工具适用于从尽职调查到药物毒性安全研究等多种任务,并将被整合进 Google Search、Google Finance 等服务中。此外,Google 引入了名为 DeepSearchQA 的新基准来测试代理在复杂多步骤信息检索任务中的表现,以证明其在减少 AI 幻觉方面的进步。

来源:TechCrunch AI

03:08

迪士尼向谷歌发出停止侵权通知,声称其存在“大规模”版权侵犯行为

迪士尼向谷歌发出停止侵权通知,声称其存在“大规模”版权侵犯行为

迪士尼指控谷歌大规模侵犯其版权,称谷歌利用AI模型和服务未经授权分发迪士尼的图像和视频。信中指出,谷歌的AI系统侵犯了包括《冰雪奇缘》、《狮子王》等作品中的角色版权,并且生成的内容带有谷歌Gemini标志,误导用户认为该行为得到迪士尼授权。同日,迪士尼与OpenAI签署10亿美元协议,将旗下角色引入Sora AI视频生成器。

来源:TechCrunch AI

02:09

谷歌的AI试衣功能现在只需一张自拍即可使用

谷歌的AI试衣功能现在只需一张自拍即可使用

Google升级了AI试穿功能,用户仅需一张自拍照即可虚拟试穿衣物。该功能基于Gemini 2.5 Flash Image模型(Nano Banana),能够生成用户的全身数字形象,并支持多种体型选择。此外,Google还通过其Doppl应用提供了一个可购物的发现流,展示个性化推荐并允许用户虚拟试穿新商品。这项技术展示了计算机视觉在电商领域的最新应用及其提升用户体验的潜力。

来源:TechCrunch AI

02:02

OpenAI 在“红色警报”备忘录后以 GPT-5.2 回击谷歌

OpenAI 在“红色警报”备忘录后以 GPT-5.2 回击谷歌

OpenAI发布GPT-5.2,面向开发者与专业用户,提供Instant、Thinking和Pro三种模式,分别针对常规查询、复杂结构化工作及高精度需求。该模型在编码、数学、科学、视觉理解等方面表现卓越,旨在推动企业级应用开发。面对Google Gemini 3的竞争,GPT-5.2在多项基准测试中领先,强调了其在多模态处理和长文本推理上的优势。

来源:TechCrunch AI

01:00

Runway发布首款全球模型,并在最新视频模型中加入原生音频功能

Runway发布首款全球模型,并在最新视频模型中加入原生音频功能

Runway 发布其首个世界模型 GWM-1,通过逐帧预测模拟物理世界的运行方式,适用于机器人、生命科学等领域的代理训练。同时,Runway 更新了其 Gen 4.5 视频模型,新增原生音频及多镜头长视频生成能力。GWM-1 包括 GWM-Worlds、GWM-Robotics 和 GWM-Avatars 三个版本,分别用于创建交互式项目、机器人仿真和人类行为模拟,标志着视频生成模型正从原型向生产级工具迈进。

来源:TechCrunch AI

12月 11日
3 条新闻
23:21

迪士尼与OpenAI达成协议,允许使用索拉生成包含其角色的人工智能视频

迪士尼与OpenAI达成协议,允许使用索拉生成包含其角色的人工智能视频

迪士尼与OpenAI达成三年合作,将旗下超过200个角色引入Sora AI视频生成器及ChatGPT Images功能中,允许用户通过文本提示创建包含这些角色的短片。迪士尼同时向OpenAI投资10亿美元,并计划利用其API开发新产品和服务。此次合作展示了人工智能在内容创作领域的潜力,强调了负责任地扩展故事叙述边界的重要性。

来源:TechCrunch AI

23:00

《时代》杂志将“人工智能的构建者”评为年度人物

《时代》杂志将“人工智能的构建者”评为年度人物

《时代》杂志将2025年度人物授予“AI建筑师”,包括Nvidia、Tesla、OpenAI等公司的CEO们,他们通过数十亿美元的投资推动了AI技术的发展与应用,重塑了政府政策、加剧了地缘政治竞争,并加速了AI在全球范围内的普及。文章指出,AI已成为自核武器以来最具影响力的工具,在信息环境、气候变化及生计等方面产生了深远影响。

来源:TechCrunch AI

21:00

对Spoor鸟类监测AI软件的兴趣正在飙升

对Spoor鸟类监测AI软件的兴趣正在飙升

挪威初创公司Spoor利用计算机视觉技术,开发出可识别并追踪鸟类的软件,帮助风电场减少对鸟类的影响。该软件能检测2.5公里范围内的鸟类活动,并与任何高分辨率相机兼容。通过不断优化AI模型,其鸟类识别准确率已达96%。除了风电行业,机场和水产养殖业也对该技术表现出兴趣。随着监管趋严,此类环保监测工具的需求将持续增长。

来源:TechCrunch AI