AI新闻

已选标签:
AI对话
多模态AI
12月 6日
9 条新闻
21:36

Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死

Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死

NEO,全球首个开源原生多模态架构,由商汤科技与南洋理工大学等联合研发。它通过三大创新技术——原生图块嵌入、三维旋转位置编码及多头注意力机制,实现了视觉与语言的深度融合,仅用十分之一训练数据即在多项评测中追平甚至超越GPT-4V等顶级模型。NEO展示了下一代AI竞争力的关键在于架构创新而非单纯规模扩大,并且其高效性能和较低成本使得强大的多模态能力可普及至边缘设备,如手机、机器人等。

来源:量子位

14:52

180万个孤独灵魂的“寂寞生意”,能撑起Soul的IPO吗?

180万个孤独灵魂的“寂寞生意”,能撑起Soul的IPO吗?

Soul,一款专注于陌生人社交的APP,通过自研大模型提供AI辅助聊天和AI伴侣功能,试图在元宇宙与AI技术融合中探索新的商业机会。尽管其财务数据表现亮眼,但用户增长趋于平稳。Soul利用AI技术提升用户体验的同时面临如何更好地将AI融入现有生态以满足用户情感需求的挑战。

来源:36氪

11:47

OpenAI被曝最快将于下周二发布GPT-5.2

据报道,作为对谷歌与Anthropic加速竞争的首次“应急式”回应,OpenAI正准备推出其最新的GPT-5.2,当前内部计划的发布日期为12月9日,较原定的12月下旬计划明显提前。知情人士称,GPT-5.2应该能弥补谷歌上个月发布Gemini 3所拉开的差距。目前,Gemini 3在多项评测中名列前茅,并引起了Altman与马斯克的关注。本周早些时候,OpenAI首席执行官Sam Altman宣布公司进入“红色警报 (code red)”状态,以快速应对来自谷歌Gemini 3和Anthropic等竞争对手带来的日益增长的压力。随后,Altman在内部评估中表示,即将推出的GPT-5.2在推理能力上将“领先于谷歌的Gemini 3”。(广角观察)

来源:钛媒体

11:39

14岁华人小孩,折个纸成美国天才少年

14岁华人小孩,折个纸成美国天才少年

14岁华裔少年Miles Wu通过创新折纸设计,斩获JIC青少年创新挑战赛最高奖。他提出的三浦折叠变体能够承受自身重量的10000倍,展示了在应急避难所等领域的应用潜力。此案例突显了AI技术在辅助设计、优化结构性能方面的可能性,以及未来在多模态融合与智能材料开发中的发展趋势。

来源:量子位

09:41

好莱坞的鱼头终于朝向了奈飞

好莱坞的鱼头终于朝向了奈飞

奈飞以827亿美元收购华纳兄弟,标志着流媒体巨头在内容产业中的话语权进一步集中。此次并购不仅涉及电影电视工作室和HBO Max等资产,还反映了AI技术在内容推荐、个性化定制及广告投放等方面的应用前景。未来,随着AI技术的不断进步,尤其是在多模态处理与自然语言理解方面的能力提升,预计将推动流媒体平台在用户互动体验上的创新,并对传统院线模式构成挑战。同时,也引发了关于数据安全、算法偏见以及行业垄断等问题的关注。

来源:36氪

08:39

开源和闭源模型的差距在拉大:这是DeepSeek论文揭示的残酷真相

开源和闭源模型的差距在拉大:这是DeepSeek论文揭示的残酷真相

DeepSeek 发布 V3.2 技术报告,指出开源大模型与闭源模型的性能差距在扩大。报告通过对比测试显示,开源模型在复杂任务上明显落后于闭源模型。论文分析了三个关键问题:传统注意力机制效率低、后训练资源投入不足、AI Agent 能力滞后,并提出相应解决方案,包括引入 DSA 机制、增加后训练预算和开发系统化任务合成流程,显著缩小了与闭源模型的差距。

来源:36氪

05:02

Meta收购AI设备初创公司Limitless

Meta收购AI设备初创公司Limitless

Meta收购AI初创公司Limitless,后者曾推出AI驱动的可穿戴设备以记录对话。尽管Limitless将停止销售硬件并逐步减少服务,但其团队将助力Meta开发AI赋能的可穿戴设备,特别是AR/AI眼镜领域,加速实现个人超级智能愿景。此举反映了AI硬件市场竞争加剧及大型科技公司在该领域的布局趋势。

来源:TechCrunch AI

01:40

华为新架构砍了Transformer大动脉!任意模型推理能力原地飙升

华为新架构砍了Transformer大动脉!任意模型推理能力原地飙升

华为诺亚方舟实验室提出Nexus架构,通过高阶注意力机制有效解决了Transformer在复杂逻辑推理任务中的不足。该架构在不增加参数量的情况下,显著提升了模型的推理能力。实验显示,无论是小模型还是大模型,采用Nexus后,在数学和科学等需要多步推理的任务上均有明显性能提升,展示了其在提升AI推理能力方面的巨大潜力。

来源:量子位

12月 5日
11 条新闻
23:27

Meta与出版商签署商业AI数据协议,以在Meta AI平台上提供实时新闻

Meta与出版商签署商业AI数据协议,以在Meta AI平台上提供实时新闻

Meta与多家新闻出版商签署AI数据协议,通过其AI聊天机器人提供实时全球、娱乐和突发新闻。该举措旨在提升Meta AI的响应速度、准确性和平衡性,让用户从不同来源获取及时相关信息。此举也反映了Meta在面临竞争加剧时,希望通过增强AI聊天机器人的功能来吸引更多用户,并保持在AI领域的竞争力。

来源:TechCrunch AI

20:14

深度复盘2025年C端卡位战:阿里猛攻,字节守擂,最焦虑的或是腾讯

字节跳动通过将豆包大模型融入手机操作系统,颠覆了AI助手的传统迭代模式。此举引发市场广泛关注,并对阿里等竞争对手造成压力,促使阿里加速推进其AI产品千问的研发与推广。腾讯元宝在经历短暂增长后面临用户活跃度下降的问题,正积极调整策略以增强其AI产品的竞争力。整体来看,2025年C端AI市场竞争激烈,各大厂商纷纷加大投入力度,在模型能力、应用场景及成本控制等方面寻求突破。

来源:36氪

20:14

65岁LeCun被卷回巴黎老家,与小扎一刀两断,曝光神秘AI初创

图灵奖得主Yann LeCun离职Meta,计划创业专注于高级机器智能,基于视觉等感官信息训练AI以理解物理世界。LeCun认为大语言模型虽强大但已触及天花板,缺乏对物理世界的理解和长期记忆能力,提出构建非生成式的联合嵌入预测架构(JEPA)作为未来方向。他强调真正的智能需要能够与环境互动并进行多步推理的世界模型。

来源:36氪

18:06

400亿机器人、6万亿参数的Grok 5:马斯克访谈中的AI终局与人类意义

马斯克预测未来全球将有300-400亿台人形机器人,并首次通过Grok 5模型看到了实现通用人工智能(AGI)的可能,尽管概率仅为10%。特斯拉正在研发的AI5芯片目标是性能超越英伟达2到3倍且成本降低至十分之一,这将是Optimus人形机器人的核心。此外,马斯克还提出了一个“没有App”的未来世界愿景,其中手机将成为AI推理边缘节点,由AI处理所有交互,预计五年内实现。

来源:36氪

18:06

谷歌IMO金牌级Gemini 3深夜上线,华人大神挂帅,OpenAI无力反击

谷歌DeepMind发布Gemini 3 Deep Think,该模型在解决复杂数学、科学难题上表现出色,特别是在并行推理能力方面实现了突破。在多项基准测试中,如HLE和ARC-AGI-2上取得领先成绩。此外,Deep Think还展示了强大的3D场景创建与物理效果模拟能力。同时,谷歌宣布由华人科学家Yi Tay领导的新加坡团队将专注于高级推理及前沿模型研发,旨在推动AGI的发展。

来源:36氪

16:01

谷歌最强大模型付费上线,在DeepSeek开源后被吐槽太贵

谷歌发布Gemini 3 Deep Think,该模型在复杂推理、数学和科学问题解决方面显著提升。其多轮迭代推理能力支持更精细的代码生成与原型设计,在多项基准测试中取得SOTA成绩。然而,高昂的价格(Ultra会员月费249.9美元)及仅限特定用户群体使用引发了争议,反映出开源模型对封闭商业模型带来的挑战。

来源:36氪

16:01

Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死

NEO,全球首个开源原生多模态架构,由中国研究团队推出。与传统模块化多模态模型不同,NEO采用统一的视觉-语言一体化设计,通过原生图块嵌入、三维旋转位置编码和多头注意力机制等创新技术,实现高效训练及卓越性能。仅用十分之一的数据量,其在多项评测中超越了依赖大规模数据的传统大模型,尤其适合边缘计算场景,为未来多模态AI发展提供了新路径。

来源:36氪

16:00

五问百“镜”大战:手机就能干,为啥要买它?

2025年末,AI智能眼镜市场竞争激烈。理想、百度、阿里等企业纷纷推出新品,功能涵盖超高清拍照、AI翻译及导航等。当前各厂商主要聚焦硬件性能如拍摄能力与佩戴舒适度,AI功能尚未成为核心差异化因素。产品形态分为第一视角拍照与带显示的单绿双目光波导两种。未来,随着技术成本降低和用户体验优化,预计3-5年内AI/AR眼镜将进入消费主流。

来源:36氪