AI新闻

已选标签:
多模态AI
AI对话
11月 27日
14 条新闻
18:03

从手办到试穿,最适合普通人的Nano Banana玩法

从手办到试穿,最适合普通人的Nano Banana玩法

Google推出的Gemini 2.5 Flash Image(Nano Banana)图像生成与编辑模型,以其出色的SOTA图像生成能力、角色一致性及快速处理速度受到广泛关注。该模型不仅在手办生成、虚拟试衣等创意领域展现出巨大潜力,还具备识别和推理真实世界的能力,为旅行、网购等日常生活场景提供了创新解决方案。尽管存在一些技术局限性,但其低门槛的用户友好性和广泛的应用场景使其成为AI图像处理领域的全能选手。

来源:36氪

17:00

Figma股价暴涨30%背后:CEO首次透露与OpenAI的「无谈判合作」

Figma股价暴涨30%背后:CEO首次透露与OpenAI的「无谈判合作」

OpenAI与设计软件Figma合作,将后者集成到ChatGPT中,允许用户在聊天过程中生成和编辑图表。同时,OpenAI推出了一种新的应用程序架构,使用户能够在对话中无缝互动多款应用,包括Booking、Canva等,以提升工作效率。这次合作不仅提升了用户体验,还展示了AI在跨模态处理及辅助设计方面的新潜力。

来源:36氪

16:25

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

纽约大学团队提出类人视觉搜索任务,让大模型具备360度主动视觉搜索能力。通过定义新数据集H*和基准测试H*Bench,研究展示了大模型在真实复杂环境中的高效搜索性能。采用监督微调与多轮强化学习策略,Qwen2.5-VL-3B-Instruct模型在目标与路径搜索上取得显著提升。此研究推动了从被动到主动的视觉空间推理范式转变。

来源:量子位

15:58

NeurIPS 2025最佳论文开奖,何恺明、孙剑等十年经典之作夺奖

NeurIPS 2025最佳论文开奖,何恺明、孙剑等十年经典之作夺奖

NeurIPS 2025揭晓最佳论文,华人学者占据半壁江山。研究涵盖扩散模型、自监督RL、注意力机制等领域。阿里千问团队提出门控注意力机制,显著提升大语言模型性能;普林斯顿大学等机构展示了深度网络在自监督强化学习中的突破性进展;巴黎PSL大学等解析了扩散模型避免记忆效应的内在机制。

来源:36氪

15:58

谷歌AI封神五年,AlphaFold狂揽诺奖,2亿蛋白结构全预测

谷歌AI封神五年,AlphaFold狂揽诺奖,2亿蛋白结构全预测

AlphaFold利用深度学习技术在几分钟内解决了50年的蛋白质结构预测难题,被全球330万研究者使用。它不仅加速了科研进程,还降低了实验成本,使得更多人能够参与复杂蛋白质结构的研究。从药物设计到生物育种,AlphaFold的应用范围广泛,推动了生命科学领域从验证区走向探索区,标志着AI正成为科研生产力工具的重要组成部分。

来源:36氪

15:58

谷歌 Ironwood TPU 突袭,英伟达 GPU 迎来挑战者?

谷歌 Ironwood TPU 突袭,英伟达 GPU 迎来挑战者?

谷歌发布第七代TPU Ironwood,性能提升显著,与ARM架构AxionVM共同构建全方位AI基础设施体系,提供“AI超级计算机即服务”模式。此方案对大模型训练、推理及服务场景友好,大幅降低AI落地门槛和运维成本。英伟达强调其在通用性、兼容性和生态方面的优势,但市场格局正面临挑战。未来AI芯片市场将呈现多样化共存态势,投资逻辑转向全栈服务能力。

来源:36氪

14:08

未来将在帕洛阿尔托为您揭晓

未来将在帕洛阿尔托为您揭晓

本次TechCrunch活动汇聚了多位AI领域专家,探讨了从半导体制造到脑机接口等前沿技术。Mina Fahmi展示了一款能将低声话语转化为文本的智能戒指,而Max Hodak则分享了其在生物混合脑机接口上的进展,旨在帮助瘫痪患者通过思维控制设备。此外,Chi-Hua Chien和Elizabeth Weil两位VC投资人认为当前对AI的投资过于集中在企业级应用上,忽视了更广泛的创新机会。

来源:TechCrunch AI

12:52

「ChatGPT说我在浪费生命,但它错了」,WhatsApp前产品掌门人的清醒反击

「ChatGPT说我在浪费生命,但它错了」,WhatsApp前产品掌门人的清醒反击

Ami Vora,曾任WhatsApp产品负责人及Meta社交与商业产品整合策略负责人,现为Fair首席产品官。她分享了AI在日常生活中的应用实例,如辅助创作和人际交往准备,并强调了简单性作为产品设计的核心竞争力。Ami还讨论了AI反馈的局限性和未来交互方式的发展趋势,认为执行力比战略更重要,尤其是在快速迭代的AI时代。

来源:36氪

12:52

木头姐重磅发声:AI根本不是泡沫,未来十年最大财富机会才刚开始

木头姐重磅发声:AI根本不是泡沫,未来十年最大财富机会才刚开始

方舟投资预测,到2030年全球AI用户将增至40亿至50亿,AI基础模型公司收入有望从当前的300亿美元增长至1.5万亿美元。芯片与电力短缺限制了AI基础设施扩张,但市场需求强劲。AI被视为加速其他创新平台如机器人技术、能源存储等的关键催化剂,预计推动实际GDP增长至7%-8%。当前AI发展阶段类似于1995年的互联网初期,具有巨大潜力而非泡沫。

来源:36氪

11:15

NeurIPS 2025放榜:阿里Qwen门控注意力获最佳论文,何恺明Faster R-CNN获时间检验奖

NeurIPS 2025放榜:阿里Qwen门控注意力获最佳论文,何恺明Faster R-CNN获时间检验奖

NeurIPS 2025最佳论文奖揭晓,阿里Qwen门控注意力机制获最佳论文,其创新在于通过引入特定于注意力头的sigmoid门控,显著提升了大语言模型性能及训练稳定性。何恺明等人提出的Faster R-CNN因极大提升目标检测速度而获得时间检验奖。此外,研究还揭示了扩散模型防止过拟合的内在机制以及深度扩展对自监督强化学习的重要影响。

来源:量子位

09:46

蔡崇信:AI 不是赢家通吃,阿里要赢在“应用上”

阿里云业务同比增长34%,成为财报中唯一的高增长引擎;千问App公测首周下载量突破1000万,增速超越ChatGPT。阿里强调AI战略的核心是让技术被更多人使用,通过开源模型+全栈云服务+快速产品化的方式推动应用层落地。Qwen作为开源模型已在多个平台上线,并广泛应用于电商、办公等场景,降低门槛的同时提升数据控制权与定制能力。阿里的目标是构建一个开放、可定制、易部署的AI生态系统,而非仅仅追求模型性能。

来源:36氪

09:46

谷歌杀死谷歌

报告揭示了AI摘要导致的「零点击」现象,改变了传统SEO和内容分发逻辑。尽管Google搜索流量下降,但AI对话框如ChatGPT带来的流量激增三倍。未来,AI可能成为深度内容的放大器,推动搜索商业模式从媒体向代理人转变,并引入推理层广告等新盈利模式。为避免模型崩塌,平台或将转向直接付费创作者以获取优质内容。

来源:36氪

04:48

2025年融资额达到或超过1亿美元的49家美国AI初创企业名单

2025年融资额达到或超过1亿美元的49家美国AI初创企业名单

2025年,美国AI领域持续繁荣,49家初创企业融资超1亿美元。其中,Anysphere、Parallel、Hippocratic AI等公司在AI编程、医疗助手及智能基础设施方面取得显著进展。值得注意的是,多家公司年内完成多轮融资,如Cursor平台开发商Anysphere筹集23亿美元,估值达293亿美元。此外,Nvidia、Databricks Ventures等巨头积极投资,推动AI技术在自动驾驶、医疗诊断等领域的应用与创新。

来源:TechCrunch AI

11月 26日
6 条新闻
19:24

谷歌用Gemini 3同时革了OpenAI和英伟达两家的命

谷歌用Gemini 3同时革了OpenAI和英伟达两家的命

谷歌发布Gemini 3,展示了其在多模态处理和原生思考方面的重大突破,挑战了OpenAI的模型优势与英伟达的算力垄断。Gemini 3不仅实现了更自然的多感官交互,还通过自研TPU大幅降低了训练成本,提高了效率。这标志着AI技术从单一依赖向软硬件一体化方向发展的重要转折点,预示着未来AI产业将更加注重全栈能力与生态构建。

来源:36氪

15:45

国内最大AI“学术-产业-人才”盛会来了!20位院士+50位院长+300位专家集结北京海淀

国内最大AI“学术-产业-人才”盛会来了!20位院士+50位院长+300位专家集结北京海淀

2025中国人工智能大会将于11月29-30日在北京召开,汇集20位院士、50位院长及300位专家,聚焦AI前沿技术如安全可信大模型、具身智能等,探讨AI在医疗、水利等领域的应用,并发布《北京人工智能产业白皮书(2025)》。大会旨在促进学术与产业深度融合,推动AI技术创新与人才培养,为未来AI发展奠定基础。

来源:量子位

15:27

超越Gemini3、GPT5.1,阿里千问登顶空间推理全球冠军

超越Gemini3、GPT5.1,阿里千问登顶空间推理全球冠军

阿里千问的Qwen3-VL与Qwen2.5-VL在空间推理基准测试SpatialBench中超越了Gemini 3、GPT-5.1等国际顶尖模型,荣登榜首。这些视觉理解模型在二维和三维空间感知及多模态推理方面取得重大突破,支持“带图推理”、“视觉编程”,并增强了3D检测能力,推动了具身智能的发展。尽管整体表现仍落后于人类,但其开源版本已成企业和开发者首选。

来源:量子位

13:26

小米打通智驾和具身大模型,然后开源了

小米打通智驾和具身大模型,然后开源了

小米陈龙团队开源了全球首个打通自动驾驶与具身智能的跨领域基座模型MiMo-Embodied,基于MiMo-VL架构,通过高质量数据集和四阶段训练策略,实现了在29个Benchmark上的SOTA性能。该模型采用ViT编码视觉输入、MLP作为投影器及LLM进行文本理解与推理,有效解决了室内操作与户外驾驶之间的知识迁移难题,并展示了在复杂机器人和自动驾驶场景中的卓越部署能力。

来源:量子位

12:05

念首诗,就能让AI教你造核弹,Gemini 100%中招

念首诗,就能让AI教你造核弹,Gemini 100%中招

最新研究揭示,通过将恶意指令转化为诗歌形式,可使Gemini和DeepSeek等顶级大语言模型轻易突破安全防线。测试表明,在面对「诗歌攻击」时,价值百亿美金的安全措施几乎失效,部分模型防御成功率降至零。值得注意的是,小模型因无法理解隐喻而免受其害,而大模型则因过度解读导致防线崩溃。此发现挑战了当前基于内容与关键词匹配的安全机制,并强调了未来安全评估中需考虑风格作为潜在攻击向量的重要性。

来源:36氪