火山引擎总裁谭待：Agent的构建基础是深度思考模型，或效仿自动驾驶分级定义-蓝鲸财经

图片来源：视觉中国

蓝鲸新闻4月18日讯（记者朱俊熹）据字节跳动旗下云服务平台火山引擎披露，截至今年3月底，豆包大模型日均tokens调用量已达12.7万亿。与去年5月发布时相比增长106倍，远超去年12月时的4万亿日均tokens调用量。

火山引擎是国内最早接入DeepSeek V3、R1模型的云厂商之一。总裁谭待在4月17日接受蓝鲸科技在内的媒体群访时表示，火山引擎对模型的接入始终持开放态度，只要是好的模型、客户有需求，就会接入到平台中。不论是字节的模型还是其他开源模型，“当然我们还是对豆包有巨大的信心”。

谭待提到，tokens调用量的激增取决于模型本身的几大突破。其一是模型最基础的聊天、信息处理能力在去年得到了提升，且成本不断下降。今年则受益于深度思考模型的上线。在谭待看来，之后的一个突破方向是视觉推理，能够解锁更多视觉驱动的现实场景。“人能处理现实生活，一定是眼睛、嘴巴、耳朵、手都用上的。模型也是一样，要有眼睛的能力，那多模态就很重要。”

在4月17日举办的“AI创新巡展”上，火山引擎面向B端发布豆包1.5深度思考模型。该模型具备视觉推理能力，能像人类一样对看到的事物进行联想和思考。谭待表示，在多模态能力的加持下，豆包深度思考模型可以助力企业在更多场景实现智能化升级。例如模型在分析航拍图时，能结合地貌特征来判断区域开发可行性。

同日，OpenAI也发布最新推理模型o3和o4-mini，同样强调在视觉推理方面取得突破。据OpenAI介绍，新模型不仅可以“看到”图像，还能在思维链中整合图像用来思考。

火山引擎关注的另一个模型突破方向则是Agent。谭待解释称，AI在对话、信息处理这块市场能分的蛋糕有限，要真正深入到各行各业中，Agent就是必经的一步。

今年以来，Manus、智谱AutoGLM沉思等Agent产品受到科技行业热切关注，2025年也被视作“Agent智能体元年”。但与此同时，业内对智能体并没有统一的定义，极易造成概念上的混乱。

对此谭待表示，让AI来写打油诗、小学生作文或生成简单的报告，都不能算是真正的Agent。从定性上看，Agent应该能够完成一个专业度较高的人、需要较长时间才能实现的完整任务。在技术层面，Agent的构建需要基于深度思考模型，才能具备思考、计划和反思能力，并且支持多模态，以更好地处理复杂任务。

他补充称，随着Agent今年的进一步落地，其定义可能会变得更清晰。或者就像自动驾驶一样，也发展出不同级别的定义。开发出几千个能完成简单任务的Agent属于L1级，最终做到L2++级才能叫作“落地的元年”。（在自动驾驶领域，L2++级介于L2和L3之间，比L2系统更先进，但仍需人类保持一定的监控和干预准备。）

火山引擎将Agent大致划分为两类：垂直类Agent、通用型Agent。谭待表示，对于垂直类Agent，火山可能会在擅长的领域尝试自己来做，例如数据、代码Agent。而在能够操作电脑、手机的通用型Agent方面，火山更看重的是“把路修好”，为开发者和企业提供合适的工具，构建自己的通用Agent。

因此，火山引擎也宣布推出OS Agent解决方案。其中包括豆包UI-TARS模型，以及veFaaS函数服务、云服务器、云手机等产品，能够实现对代码、浏览器、电脑、手机以及其他Agent的操作。在活动现场，谭待演示了如何由Agent来操作浏览器，完成商品比价的任务，甚至通过Agent在剪映上进行视频编辑与配乐。