• 游客发表

    Nano Banana 2 突然现身!能画公式解数学题,监控画面都能伪造

    发帖时间:2026-04-19 08:31:25

    Nano Banana 2 代一亮相就惊艳众人。下面这张图完全是 AI 生成,不仅包括网页中的内容,甚至整个浏览器界面和桌面都是生成的,而且没有参考图像。

    这次 Nano Banana 2 以预览版的形式出现在第三方网站 Media.io 上,随后被移除,只有少数手快的网友参加了测试。

    预览版展示出的能力已远超前代,在处理复杂提示方面的表现突出,包括精确的文本渲染、超逼真的场景以及类似完整桌面界面的精细模拟。

    但谷歌 DeepMind 方面没有对发布正式时间等作出说明。

    Nano Banana 2 全面升级

    根据测试页面说明,这次 Nano Banana 2 又名 GemPix2,主要在真实性、生成速度和自然交互控制上面改进。

    从现有的测试结果看,Nano Banana 2 能够生成极其复杂的 UI,文字渲染也看不出破绽,很多网友都会以为是一张真实截图。

    对物理常识与遵循提示词的细节也表现很好。

    可以同时准确绘制出指向特定时间的时钟和一杯斟满的红酒。

    甚至能伪造出逼真的监控录像画面,不过据推测正式版发布时候应该会削弱这方面能力。

    此外,Nano Banana 2 还掌握了一定的世界知识与逻辑推理能力。

    在解决数学问题的对比测试中,1 代解题思路好像大致方向是对的,但最终渲染出的公式基本无法理解。

    二代虽然有一些小错误,但结果给人印象深刻。

    Nano Banana 团队:图像生成的质量已接近上限

    Nano Banana 最初于 2025 年 8 月中旬匿名出现在 AI 模型测评平台 LMArena,凭借其出色的图像编辑能力迅速登顶排行榜,引发社区热议,

    8 月底,谷歌正式揭晓其身份为 Gemini 2.5 Flash Image,Nano Banana 的代号源于谷歌内部测试生成“香蕉大小的纳米机器人”时效果很好。

    上线不到 10 天,用户编辑了超过 2 亿张图片,为 Gemini 应用带来了 1000 万新用户,并一度帮助 Gemini 超越 ChatGPT 成为苹果免费应用榜首。

    第一代 Nano Banana 的核心优势在于强大的图像编辑和理解能力,

    包括自然语言编辑与角色一致性,用户可用日常语言进行多轮、迭代式的图像编辑,同时解决了 AI 图像编辑中常见的“身份漂移”问题,保持角色特征在多次修改后高度一致。

    与先前模型相比增加了多图像融合与风格迁移功能,支持将多张不同图片无缝融合成一张连贯的图像,或将一张图的风格应用到另一张图的物体上,为电商、广告等行业提高了创作效率。

    以及低成本也高速度,基于谷歌 TPU v5 架构优化,Nano Banana 平均响应时间仅为 1.3 秒,单张图片生成成本约 0.039 美元,仅为 DALL-E 3 的十分之一。

    此前 Nano Banana 核心团队透露,图像生成的质量已接近上限,未来的关键在于提升模型理解用户“意图”(intention)的能力。

    谷歌自身也在加速将 Nano Banana 整合进其核心产品生态。除了在 Gemini 应用和 AI Studio 中提供服务外,谷歌已开始测试将其集成到 Google Photos、搜索(Search)、智能镜头(Lens)和画圈搜索(Circle to Search)中,意图打造一个无缝的 AI 驱动视觉体验闭环。

    参考链接:

    [1]https://x.com/synthwavedd/status/1987259262322749784?s=20

    [2]https://www.reddit.com/r/singularity/comments/1osolhn/nano_banana_2_vs_nano_banana_comparison_output

    本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨

    广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。

      {loop type="link" row=1 }{$vo.title}