AI新闻

已选标签:
生成模型
多模态AI
12月 13日
2 条新闻
01:00

谷歌翻译现支持实时语音翻译至耳机播放

谷歌翻译现支持实时语音翻译至耳机播放

Google推出实时耳机翻译测试版,通过深度学习和语音识别技术实现实时翻译,保持说话者的语调、强调和节奏。该功能支持70多种语言,并计划在2026年扩展到iOS平台和其他国家。同时,Google Translate引入了先进的Gemini能力,提高了文本翻译的准确性,更好地处理俚语、成语等复杂表达。此外,Google还扩展了语言学习工具至近20个国家,增强了用户反馈和学习进度跟踪功能。

来源:TechCrunch AI

00:01

ChatGPT:关于这款人工智能聊天机器人的全面指南

ChatGPT:关于这款人工智能聊天机器人的全面指南

自2022年11月推出以来,ChatGPT凭借其强大的文本生成能力吸引了3亿周活跃用户。面对来自中国竞争对手的压力,OpenAI加速了技术创新与商业布局,包括与苹果合作推出Apple Intelligence、发布具备语音功能的GPT-4o及Sora视频生成模型等。近期,CEO Sam Altman宣布将重点转向提升ChatGPT性能以应对日益激烈的市场竞争。此外,OpenAI还面临内部人事变动和版权纠纷等问题。

来源:TechCrunch AI

12月 12日
18 条新闻
20:40

三大国产AI学习助手实测:谁能真正带学生提高一分?

三大国产AI学习助手实测:谁能真正带学生提高一分?

近期,国产AI助手如灵光、豆包手机助手及千问App在教育领域的应用迅速发展,展示了从技术竞争向实际应用场景过渡的趋势。通过五项实测(讲题、错题诊断、出练习题、制定学习计划和连续对话与陪伴),评估了三款AI助手在辅助学生学习中的表现。结果显示,它们在不同方面各有优势:豆包擅长结构化教学,千问更注重逻辑性和亲和力,而灵光则倾向于提供细致的教学设计。整体而言,这些AI助手已经具备了较强的学习辅助能力,并在不断优化中提升用户体验。

来源:36氪

19:38

中国首个全自主无人化人形机器人导览解决方案发布

北京人形机器人创新中心日前发布全国首个全自主无人化人形机器人导览解决方案。该方案深度整合全自主导览、拟人化交互、多机调度、全局IOT联动等关键能力,可覆盖展厅导览、商场导购、业务讲解、文旅景区等多元场景。此次解决方案的发布,标志着人形机器人导览正式迈入“全自主、无人化”的新阶段。未来,该方案可广泛应用于展厅导览、商场导购、业务讲解、文旅景区等场景,通过多机协同与全域联动,为用户带来更专业、更生动的智能服务体验。(央视新闻)

来源:钛媒体

19:38

你的专业工作,70.9%可能已被AI超越:GPT-5.2深度评测

你的专业工作,70.9%可能已被AI超越:GPT-5.2深度评测

OpenAI推出GPT-5.2,首次在专业任务上整体表现超越人类专家。新模型精准聚焦专业知识型工作,通过三版本策略满足不同需求。GPT-5.2在深度办公、代码驾驭、长上下文理解及视觉理解等方面实现显著突破,成为高效且可靠的智能协作者。随着其逐步开放给全球用户,标志着AI从信息提供者转变为价值创造者的转折点。

来源:36氪

19:38

花10亿美元,迪士尼让AI来拍“短片”了

迪士尼与OpenAI达成深度合作,授权超过200个IP元素用于Sora和ChatGPT Images中,标志着娱乐行业进入AI工业化阶段。通过生成式AI技术,粉丝可以轻松创作包含迪士尼角色的短视频和静态图像,并有机会在Disney+上展示。此次合作不仅改变了IP运营逻辑,还可能影响未来剧集生命周期评估标准。

来源:36氪

18:36

谷歌最新 Gemini Agent 爆击GPT-5.2?人类最后考试得分见分晓,网友:Altman又该发“红色警报”了

谷歌最新 Gemini Agent 爆击GPT-5.2?人类最后考试得分见分晓,网友:Altman又该发“红色警报”了

谷歌与OpenAI几乎同时发布重磅更新,分别推出Gemini Deep Research Agent和GPT-5.2。Gemini Deep Research基于Gemini 3 Pro构建,具备多步强化学习优化决策序列、超大规模上下文处理能力及可追溯引用来源等优势,在长链推理任务中表现突出。此外,谷歌还开源了DeepSearchQA基准测试,并提供了Interactions API,以增强智能体的交互控制能力。双方在基础模型能力和应用生态主导权上的竞争愈发激烈。

来源:36氪

18:36

实测 GPT-5.2 :价格暴涨能力微涨,凭什么反击 Gemini

实测 GPT-5.2 :价格暴涨能力微涨,凭什么反击 Gemini

GPT-5.2发布,包含Instant、Thinking和Pro三个版本,其在多模态理解和推理能力上显著提升,特别是在专业任务处理与3D建模方面表现优异。尽管响应时间变长,但准确性和复杂任务处理能力增强。知识更新至2025年8月。编程测试中,GPT-5.2展示了强大的代码生成能力,但在某些特定场景下仍落后于Claude。价格方面,GPT-5.2较前代上涨约40%。

来源:36氪

18:36

阻止互联网广告下滑,全靠AI?

阻止互联网广告下滑,全靠AI?

百度和快手在2025年Q3财报中首次披露了AI广告或营销带来的具体收入增长,如百度AI原生营销服务同比增长262%至28亿元。AI技术正通过提升广告效率、优化用户体验等方式重塑营销行业,成为互联网公司新的增长引擎。尽管AI广告展现出巨大潜力,但其在创意真实性和消费者信任度方面仍面临挑战。

来源:36氪

17:34

AI版「互联网协议」面世,豆包手机们再也不怕被「封禁」了?

AI版「互联网协议」面世,豆包手机们再也不怕被「封禁」了?

新闻探讨了GUI Agent与MCP协议在智能体AI领域的应用及挑战。GUI Agent通过模拟用户操作,直接在图形界面上执行任务,但面临系统权限、平台秩序和安全边界的问题。相比之下,MCP协议提供了一种统一的接口标准,降低了大模型与外部系统的集成门槛,为智能体AI建立了清晰的权限和边界,被视为未来AI互联网协议的标准。

来源:36氪

17:33

OpenAI用GPT-5.2“反击”谷歌,刀子够快吗?

OpenAI用GPT-5.2“反击”谷歌,刀子够快吗?

OpenAI发布GPT-5.2,强调其在专业任务如编码、法律、金融等领域的卓越表现。尽管在多项基准测试中领先,但与竞争对手如谷歌Gemini 3 Pro的差距并不明显。AI竞赛已进入多方混战阶段。面对商业化压力和技术挑战,OpenAI正积极寻求在垂直领域建立优势,并探索广告和交易分成等新商业模式。

来源:36氪

16:32

里程碑时刻,首个100B扩散语言模型来了,技术报告揭秘背后细节

里程碑时刻,首个100B扩散语言模型来了,技术报告揭秘背后细节

扩散语言模型(dLLM)在短时间内实现了从16B到100B参数规模的飞跃,展现出超越传统自回归模型的潜力。蚂蚁集团联合多所高校推出的LLaDA2.0系列模型采用MoE架构,在多个复杂任务上表现优异。通过持续预训练策略和系统化后训练流程,成功将AR模型平滑转化为dLLM,并解决了长文本生成效率低下的问题。

来源:36氪

16:32

中国制造的「领航样本」,为何藏在海康威视智能工厂里?

中国制造的「领航样本」,为何藏在海康威视智能工厂里?

海康威视智能工厂通过自研的AI技术,包括工业视觉设备、柔性机械臂、移动机器人及调度系统、多模态感知与大模型等,实现了多品种小批量大规模定制化生产。其智能化进程从数字化协同到数据驱动决策,再到基于大模型和多模态感知的系统智能阶段,展示了中国制造在复杂场景下的创新能力与发展潜力。

来源:36氪

15:30

GPT-5.2发布即降智?背后华人被挖出,清北校友核心贡献

GPT-5.2发布即降智?背后华人被挖出,清北校友核心贡献

GPT-5.2发布,据官方基准测试,在完成经济价值任务如电子表格制作、PPT设计、代码编写与审查等方面表现出色,甚至在某些基准测试中超越专业人士。尽管有用户反映初期存在功能不稳定现象,但多位专家和用户实测反馈其在复杂推理、数学计算及编程方面实现显著进步,尤其是构建3D图形引擎等高难度任务上的表现令人印象深刻。

来源:36氪

15:30

港中文联手美团开源“视觉推理通才”,图像视频10类任务一网打尽

港中文联手美团开源“视觉推理通才”,图像视频10类任务一网打尽

香港中文大学MMLab与美团研究团队开源OneThinker,一个基于RL的多模态视觉推理通才模型,覆盖图像与视频十类核心任务,在31项主流视觉任务测试中表现优异。通过构建统一数据体系和优化多任务训练方法(如EMA-GRPO算法),OneThinker解决了传统RL模型在单一模态或任务上的局限性,展现了跨模态、多任务的通用理解和零样本能力,为实现通用视觉智能提供了新路径。

来源:36氪

15:30

跳过“逐字生成”,蚂蚁集团赵俊博:扩散模型让我们能直接修改Token

跳过“逐字生成”,蚂蚁集团赵俊博:扩散模型让我们能直接修改Token

赵俊博在量子位MEET2026智能未来大会上介绍了扩散架构语言模型LLaDA 2.0,该模型采用完形填空式预测机制,相比自回归模型,在相同计算量下参数规模更小、生成速度更快且成本更低。团队已开源LLaDA 2.0,并验证其可扩展至千亿规模。尽管扩散语言模型的训练与推理仍处于早期阶段,但其独特优势吸引了谷歌、字节等巨头及初创公司的积极布局。

来源:36氪

15:30

Meta版「甄嬛传」,28岁天才上位,掌管6千亿命脉,AI教父愤然出走

Meta版「甄嬛传」,28岁天才上位,掌管6千亿命脉,AI教父愤然出走

Meta内部因AI战略分歧产生冲突,图灵奖得主Yann LeCun离职。扎克伯格曾强调开源策略,但Llama 4失败后态度转变,暗示可能调整策略。新模型Avocado或将不再开源。28岁的Alexandr Wang被寄予厚望,领导TBD Lab团队专注于打造超级人工智能ASI,与公司其他高管在广告业务和AGI方向上存在分歧。Meta正重新分配资源支持AI项目,包括削减虚拟现实预算。

来源:36氪

15:30

OpenAI十周年「血色浪漫」:11位联创出走8位,奥特曼深夜发文

OpenAI十周年「血色浪漫」:11位联创出走8位,奥特曼深夜发文

OpenAI成立十年,从一个默默无闻的初创公司成长为全球领先的AI巨头。回顾其发展历程,关键转折点包括2017年发现语言模型中的‘情感神经元’及后续对齐人类价值的研究。GPT系列的成功展示了深度学习与大规模算力结合的巨大潜力。如今,OpenAI正朝着实现通用人工智能(AGI)的目标迈进,同时强调安全与伦理的重要性。

来源:36氪