火山引擎总裁谭待:Agent的构建基础是深度思考模型,或效仿自动驾驶分级定义

谭待解释称,AI在对话、信息处理这块市场能分的蛋糕有限,要真正深入到各行各业中,Agent就是必经的一步。

图片来源:视觉中国

蓝鲸新闻4月18日讯(记者 朱俊熹)据字节跳动旗下云服务平台火山引擎披露,截至今年3月底,豆包大模型日均tokens调用量已达12.7万亿。与去年5月发布时相比增长106倍,远超去年12月时的4万亿日均tokens调用量。

火山引擎是国内最早接入DeepSeek V3、R1模型的云厂商之一。总裁谭待在4月17日接受蓝鲸科技在内的媒体群访时表示,火山引擎对模型的接入始终持开放态度,只要是好的模型、客户有需求,就会接入到平台中。不论是字节的模型还是其他开源模型,“当然我们还是对豆包有巨大的信心”。

谭待提到,tokens调用量的激增取决于模型本身的几大突破。其一是模型最基础的聊天、信息处理能力在去年得到了提升,且成本不断下降。今年则受益于深度思考模型的上线。在谭待看来,之后的一个突破方向是视觉推理,能够解锁更多视觉驱动的现实场景。“人能处理现实生活,一定是眼睛、嘴巴、耳朵、手都用上的。模型也是一样,要有眼睛的能力,那多模态就很重要。”

在4月17日举办的“AI创新巡展”上,火山引擎面向B端发布豆包1.5深度思考模型。该模型具备视觉推理能力,能像人类一样对看到的事物进行联想和思考。谭待表示,在多模态能力的加持下,豆包深度思考模型可以助力企业在更多场景实现智能化升级。例如模型在分析航拍图时,能结合地貌特征来判断区域开发可行性。

同日,OpenAI也发布最新推理模型o3和o4-mini,同样强调在视觉推理方面取得突破。据OpenAI介绍,新模型不仅可以“看到”图像,还能在思维链中整合图像用来思考。

火山引擎关注的另一个模型突破方向则是Agent。谭待解释称,AI在对话、信息处理这块市场能分的蛋糕有限,要真正深入到各行各业中,Agent就是必经的一步。

今年以来,Manus、智谱AutoGLM沉思等Agent产品受到科技行业热切关注,2025年也被视作“Agent智能体元年”。但与此同时,业内对智能体并没有统一的定义,极易造成概念上的混乱。

对此谭待表示,让AI来写打油诗、小学生作文或生成简单的报告,都不能算是真正的Agent。从定性上看,Agent应该能够完成一个专业度较高的人、需要较长时间才能实现的完整任务。在技术层面,Agent的构建需要基于深度思考模型,才能具备思考、计划和反思能力,并且支持多模态,以更好地处理复杂任务。

他补充称,随着Agent今年的进一步落地,其定义可能会变得更清晰。或者就像自动驾驶一样,也发展出不同级别的定义。开发出几千个能完成简单任务的Agent属于L1级,最终做到L2++级才能叫作“落地的元年”。(在自动驾驶领域,L2++级介于L2和L3之间,比L2系统更先进,但仍需人类保持一定的监控和干预准备。)

火山引擎将Agent大致划分为两类:垂直类Agent、通用型Agent。谭待表示,对于垂直类Agent,火山可能会在擅长的领域尝试自己来做,例如数据、代码Agent。而在能够操作电脑、手机的通用型Agent方面,火山更看重的是“把路修好”,为开发者和企业提供合适的工具,构建自己的通用Agent。

因此,火山引擎也宣布推出OS Agent解决方案。其中包括豆包UI-TARS模型,以及veFaaS函数服务、云服务器、云手机等产品,能够实现对代码、浏览器、电脑、手机以及其他Agent的操作。在活动现场,谭待演示了如何由Agent来操作浏览器,完成商品比价的任务,甚至通过Agent在剪映上进行视频编辑与配乐。