胖胖文章网 手机版
当前位置: 首页 > 实时讯息 >

Gemini 2.5 Pro 实测:或将成为最实用的推理模型

0次浏览     发布时间:2025-03-31 17:32:00    

来源:至顶网

不幸的是,Google 最新旗舰语言模型 Gemini 2.5 Pro 的发布,被吉卜力工作室 AI 图像风波所掩盖。也许是吸取了之前失败发布的教训,Google 谨慎地将其描述为"我们最智能的 AI 模型",而不像其他 AI 实验室那样宣称自己的新模型是世界最佳。

然而,实际测试表明,Gemini 2.5 Pro 确实令人印象深刻,可能是目前最优秀的推理模型。这为许多新应用开辟了道路,并可能使 Google 在生成式 AI 竞赛中处于领先地位。

具备出色编程能力的超长上下文

Gemini 2.5 Pro 最突出的特点是其超长的上下文窗口和输出长度。该模型可以处理多达 100 万个 token (即将支持 200 万),使其能够在需要时将多个长文档和完整的代码库装入提示中。该模型的输出限制为 64,000 个 token,而其他 Gemini 模型仅为 8,000 左右。

长上下文窗口也支持更长时间的对话,因为每次与推理模型的交互都可能产生数万个 token,特别是在涉及代码、图像和视频时(我在使用 Claude 3.7 Sonnet 时就遇到了这个问题,它的上下文窗口为 200,000 个 token)。

例如,软件工程师 Simon Willison 使用 Gemini 2.5 Pro 为他的网站创建了一个新功能。Willison 在博客中说:"它分析了我的整个代码库,找出了所有需要更改的地方——总共 18 个文件,从最终的 PR 中可以看出。整个项目从开始到完成只花了约 45 分钟,平均每个需要修改的文件不到 3 分钟。我向它提出了很多其他编程挑战,而评估这些结果的瓶颈变成了我自己的理解能力!"

令人印象深刻的多模态推理

Gemini 2.5 Pro 在非结构化文本、图像和视频方面也表现出色。例如,我向它提供了我最近关于基于采样搜索的文章,并要求它创建一个描述文中算法的 SVG 图形。Gemini 2.5 Pro 正确地提取了文章中的关键信息,并为采样和搜索过程创建了一个流程图,甚至准确地呈现了条件步骤。(相比之下,同样的任务使用 Claude 3.7 Sonnet 需要多次交互,而且最终达到了 token 限制。)

生成的图像有一些视觉错误(箭头位置不正确)。为了改进效果,我接着用多模态提示测试了 Gemini 2.5 Pro,给它一个渲染后的 SVG 文件截图和代码,要求它进行改进。结果令人印象深刻,它纠正了箭头的问题,并提升了图表的视觉质量。

其他用户在多模态提示方面也有类似的体验。例如,在测试中,DataCamp 复现了 Google 博客中展示的跑步游戏示例,然后将代码和游戏视频录制提供给 Gemini 2.5 Pro,并要求它对游戏代码进行一些修改。该模型能够对视觉内容进行推理,找到需要更改的代码部分,并做出正确的修改。

然而值得注意的是,与其他生成模型一样,Gemini 2.5 Pro 也可能出错,比如修改不相关的文件和代码段。指令越精确,模型出错的风险就越低。

具有实用推理过程的数据分析

最后,我用我典型的混乱数据分析测试来评估 Gemini 2.5 Pro 的推理能力。我提供了一个包含从雅虎财经不同股票历史页面复制粘贴的纯文本和原始 HTML 数据混合文件。然后要求它计算从 2024 年 1 月到文件中最新日期,每月初投资 140 美元,平均分配到"超级七巨头"股票的投资组合价值。

模型正确识别了文件中需要的股票(亚马逊、苹果、英伟达、微软、特斯拉、Alphabet 和 Meta),从 HTML 数据中提取金融信息,并根据每月初的股票价格计算每次投资的价值。它以格式良好的表格形式呈现了每月的股票和投资组合价值,并提供了整个投资在期末的总价值明细。

更重要的是,我发现其推理过程非常实用。虽然不清楚 Google 是否展示 Gemini 2.5 Pro 的原始思维链 (CoT) token,但推理过程非常详细。你可以清楚地看到模型是如何对数据进行推理、提取不同信息片段,并在生成答案前计算结果的。这有助于排查模型的行为,并在其犯错时引导它朝正确的方向发展。

企业级推理?

关于 Gemini 2.5 Pro 的一个担忧是,它只能在推理模式下使用,这意味着即使对于可以直接回答的非常简单的提示,模型也会经历"思考"过程。

Gemini 2.5 Pro 目前处于预览版阶段。一旦完整模型发布并公布定价信息,我们将更好地了解基于该模型构建企业应用的成本。不过,随着推理成本持续下降,我们可以期待它在规模化应用中变得更加实用。

尽管 Gemini 2.5 Pro 的首次亮相可能不够引人注目,但其功能值得关注。其超大的上下文窗口、出色的多模态推理能力和详细的推理链,为从代码库重构到精细数据分析等复杂的企业工作负载提供了切实的优势。

    相关内容:

  • 国家税务总局:县域经济销售收入占比升至24.3%

    中新经纬7月28日电 28日,国务院新闻办公室举行“高质量完成‘十四五’规划”系列主题新闻发布会。会上,国家税务总局局长胡静林表示,县域经济销售收入占全国比重由2020年的22.8%上升到今年上半年的24.3%,新型城镇化建设在加快。有媒体提问,“税收数据是经济社会发展的晴雨表,能否介绍一下税收数据

    2025-07-28 11:49:00
  • 出行误了火车飞机?注意这些情况将不能办理改签退票

    暑运期间,一些旅客匆忙中误了火车和飞机的事时有发生。那么旅客一旦误了火车、误了飞机该怎么办呢?误了火车和飞机如何办理改签?如果不慎错过了列车,建议旅客第一时间办理改签,但是需要注意的是,改签有时间限制,一旦超过了规定时间就无法改签了。02:04中国铁路哈尔滨局牡丹江站客运业务科科长 周颖:如果旅客误

    2025-07-26 17:45:00
  • 辽宁唯一!鞍钢数科入选国家级企业可信数据空间创新发展试点

    日前,国家数据局公布2025年可信数据空间创新发展试点项目名单,由市数据局(市营商环境建设局、市行政审批局)报送的鞍钢数智科技(辽宁)有限公司“钢铁企业产数双链融合可信数据空间”项目位列其中,成为我省唯一入选的试点项目,标志着鞍钢数科公司在推动数据要素安全可信流通、赋能产业升级方面获得国家级认可,成

    2025-07-22 17:58:00
  • 向世界讲好湾区故事!首届粤港澳纪录片盛典颁出多项荣誉

    深圳商报·读创客户端记者 赵玉7月19日晚,随着深圳粤剧团一级演员黄伟坤的精彩亮相,以“记录新时代,聚焦大湾区”为主题的首届粤港澳纪录片盛典在深圳广电集团800演播厅拉开帷幕。本次盛典由中国电视艺术家协会、中共深圳市委宣传部、深圳市文学艺术界联合会、广东电视艺术家协会主办,中国电视艺术家协会纪录片学

    2025-07-22 10:23:00
  • 约4亿人次享受这项补贴→

    7月18日,国新办举行“高质量完成‘十四五’规划”系列主题新闻发布会。商务部有关负责人介绍,截至上半年,以旧换新共带动销售额超2.9万亿元,约4亿人次享受补贴优惠。消费品“以旧换新”,这不仅是一个消费的刺激政策,更重要的是换出了智能和绿色,智能消费和绿色消费提升了大家的品质生活。自去年9月开始推动以

    2025-07-20 02:26:00
  • 格非:关于人生道路,你想做“台球”还是“云朵”?

    在崇尚情绪稳定的时代,做一个情感丰富的人有错吗?如果人生没有标准答案,那么是否也可以选择随波逐流?在道路遍布的今天,为何我们仍觉无路可走?本文节选自茅盾文学奖得主格非全新随笔集《云朵的道路》中《道路》一文。01《人面桃花》故事的起始点源于一个名为“普济”的寂静江村。事实上,我外婆家所在的那个村子就叫

    2025-07-16 15:44:00

网站内容来自网络,如有侵权请联系我们,立即删除!
Copyright © 胖胖文章网 琼ICP备2023010360号-16

Top