AI新闻

已选标签:
AI音频
多模态AI
11月 26日
4 条新闻
15:27

超越Gemini3、GPT5.1,阿里千问登顶空间推理全球冠军

超越Gemini3、GPT5.1,阿里千问登顶空间推理全球冠军

阿里千问的Qwen3-VL与Qwen2.5-VL在空间推理基准测试SpatialBench中超越了Gemini 3、GPT-5.1等国际顶尖模型,荣登榜首。这些视觉理解模型在二维和三维空间感知及多模态推理方面取得重大突破,支持“带图推理”、“视觉编程”,并增强了3D检测能力,推动了具身智能的发展。尽管整体表现仍落后于人类,但其开源版本已成企业和开发者首选。

来源:量子位

13:26

小米打通智驾和具身大模型,然后开源了

小米打通智驾和具身大模型,然后开源了

小米陈龙团队开源了全球首个打通自动驾驶与具身智能的跨领域基座模型MiMo-Embodied,基于MiMo-VL架构,通过高质量数据集和四阶段训练策略,实现了在29个Benchmark上的SOTA性能。该模型采用ViT编码视觉输入、MLP作为投影器及LLM进行文本理解与推理,有效解决了室内操作与户外驾驶之间的知识迁移难题,并展示了在复杂机器人和自动驾驶场景中的卓越部署能力。

来源:量子位

03:57

华纳音乐与AI音乐初创公司Suno达成协议并解决诉讼

华纳音乐与AI音乐初创公司Suno达成协议并解决诉讼

华纳音乐集团与AI音乐初创公司Suno达成协议,解决版权纠纷,并出售Songkick平台。双方将共同推动音乐创作、互动和发现的新领域,同时保护艺术家权益。Suno计划推出更先进的授权模型,支持付费下载及免费播放分享功能。此合作标志着音乐行业对AI技术态度的重大转变,预示着未来AI在音乐生成领域的广泛应用及商业化前景。

来源:TechCrunch AI

11月 25日
16 条新闻
22:37

国产手机卖到1万6!华为新旗舰,搭载麒麟9030

国产手机卖到1万6!华为新旗舰,搭载麒麟9030

华为Mate 80系列与Mate X7搭载全新麒麟9030芯片及鸿蒙6操作系统,展示了AI技术在智能助手、影像处理等领域的应用突破。小艺智能体进化为多任务超级助理,通过自主学习和A2A智能体协作提升了用户体验。第二代红枫影像系统基于深度学习实现了色彩还原、动态范围等方面的显著提升。

来源:量子位

20:37

Android、ChromeOS要合体,谷歌新系统曝光,网友:Fuchsia当年惨败,这次靠谱吗?

Android、ChromeOS要合体,谷歌新系统曝光,网友:Fuchsia当年惨败,这次靠谱吗?

Google 正在开发代号为 Aluminium OS 的新桌面操作系统,旨在整合 Android 和 ChromeOS,并以人工智能为核心。该系统将利用 Google 的 Gemini 大模型和 Assistant 等 AI 技术,提供更智能、高效的用户体验。通过与高通合作,Aluminium OS 将融合移动和桌面计算,预计2026年发布。

来源:36氪

19:34

“大空头”再次炮轰英伟达,称其是AI行业泡沫破裂的前兆

知名空头迈克尔·伯里质疑美国AI热潮,将英伟达视为行业泡沫破裂的前兆。他指出当前AI领域存在过度供应和需求不足的问题,科技巨头在数据中心建设和芯片采购上投入巨大,但下游应用端收入难以覆盖成本。此外,伯里还质疑英伟达通过延长资产折旧年限虚增利润。对此,英伟达进行了详细反驳,强调自身业务实践与财务披露准确无误。

来源:36氪

18:31

六小龙的乌镇信号:AI创业从拼模型进入拼场景时代

2025年世界互联网大会在乌镇召开,六家杭州AI企业首次集体亮相,展示了具身智能、脑机接口等领域的突破。这些公司通过技术创新和生态共建,推动了AI从数据堆叠到认知建构的转变。例如,宇树科技的机器人产品已走向全球;强脑科技利用脑机接口技术帮助残疾人恢复功能;群核科技看好空间智能作为继大语言模型之后的重要领域。然而,AI发展仍面临数据采集、商业化等挑战,开源共创被视为解决问题的关键途径之一。

来源:36氪

18:31

AI的尽头是核电

AI的尽头是核电

马斯克指出AI发展瓶颈在于电力供应而非资金与算法。大模型如GPT-6训练及日常运营消耗巨大电量,数据中心能耗激增,传统能源难以满足需求。风光新能源因不稳定性和高成本不被看好,核电因其高利用率、稳定性及绿色特性成为巨头新宠,微软、谷歌等已布局核电以支撑AI算力需求。AI与核电的结合不仅解决了电力问题,还通过智能化手段提高了核电效率,形成了双向促进的局面。

来源:36氪

16:28

新加坡国家AI计划放弃Meta模型,转向阿里千问

新加坡国家人工智能计划(AISG)正在进行一次重大战略调整,在其最新的东南亚语言大模型项目中,放弃了Meta模型,转向阿里巴巴的通义千问Qwen开源架构,标志着中国开源AI模型在全球影响力版图中的一次关键扩张。据悉,AISG于11月25日宣布推出的“Qwen-SEA-LION-v4”模型,在一项衡量东南亚语言能力的开源榜单上迅速占据首位。这一转变旨在解决一个长期痛点:此前以Meta的Llama系列为代表的开源模型,在处理印尼语、泰语和马来语等区域性语言时表现不佳,严重制约了本地化AI应用的开发效率与性能。 (上证报)

来源:钛媒体

14:42

波士顿动力前CTO加盟DeepMind,Gemini要做机器人界的安卓

波士顿动力前CTO加盟DeepMind,Gemini要做机器人界的安卓

谷歌聘请前波士顿动力CTO Aaron Saunders加盟DeepMind,出任硬件工程副总裁,旨在基于Gemini打造一个类似安卓的通用机器人操作系统。Gemini 3发布后,谷歌计划构建一个几乎能够即插即用、适用于任何身体配置的AI系统,涵盖人形与非人形机器人。此举标志着谷歌在机器人领域的战略布局从初步探索转向全面冲刺,通过软硬件协同创新推动多模态融合及具身推理技术的发展。

来源:量子位

11:30

Nano Banana新玩法无限套娃!“GPT-5都不会处理这种级别的递归”

Nano Banana新玩法无限套娃!“GPT-5都不会处理这种级别的递归”

Nano Banana Pro展示了强大的多模态处理能力,通过复杂的递归图像生成任务,如1998年的艺术家绘制递归场景,赢得了包括Google DeepMind提示工程师Riley Goodside在内的专业人士赞赏。其创新的图像理解和生成技术推动了AI在艺术创作领域的应用边界。同时,Gemini 3发布后市场份额显著提升,显示了用户对更智能、多功能AI模型的偏好趋势。

来源:量子位

09:14

Gemini 3 之后,谷歌首席科学家 Jeff Dean 说清 AI 的 3 个关键信号

Jeff Dean 在斯坦福演讲中回顾了 15 年 AI 演进,重点介绍了 Gemini 3 的独特能力。Gemini 3 采用 Pathways 架构,通过 MoE 技术实现高效推理,仅激活所需模块。此外,Gemini 3 展现了从回答到行动的转变,通过强化学习和工具调用完成复杂任务。Jeff Dean 强调,AI 的普及需兼顾效率与成本,TPU 和蒸馏技术使得模型在现实约束下落地成为可能。

来源:36氪

09:13

漫剧启示录:互联网最差的生意,可能是AI最好的生意

漫剧启示录:互联网最差的生意,可能是AI最好的生意

AI技术在内容产业中展现出巨大潜力,特别是在漫剧制作领域。通过深度学习等技术,AI已将漫剧制作成本降至每分钟1000-2500元,周期缩短至10-13天,显著提高了生产效率和降低了成本。此外,AIGC(AI Generated Content)正逐步改变内容创作方式,从辅助工具向主导者转变,不仅在图像、视频生成上取得突破,还促进了跨模态内容的融合与创新,预计未来市场空间可达千亿级别。

来源:36氪