L3层:执行引擎层 - Procure Docs

L3层:基于Browser-Use的执行层

L3层技术定位: L3层作为智能采购平台的执行引擎,基于Browser-Use框架构建统一的自动化采购能力:

统一执行框架:Browser-Use作为唯一浏览器自动化框架,集成视觉理解、页面操作、异常处理
单一AI模型:阿里通义千问-VL Plus统一处理页面理解、决策制定、异常分析
无状态设计:不保存AI学习数据,每次执行独立处理,确保稳定性和可预测性
企业级可靠性:内置重试机制、异常恢复、人工介入,满足企业级应用要求

5.1 统一技术方案

5.1.1 Browser-Use集成架构

核心执行流程:

核心组件:

组件	技术实现	核心能力	业务价值
Browser-Use框架	AI Agent	浏览器自动化 + AI决策	统一技术栈,降低复杂度
通义千问-VL Plus	多模态大语言模型	视觉+文本理解	中文优化,理解准确
执行引擎	事件驱动 + 状态机	流程控制 + 异常恢复	稳定可靠,企业级应用
监控系统	实时日志 + 状态跟踪	执行监控 + 问题诊断	运维友好,问题可追溯

5.1.2 AI模型集成策略

统一AI模型的技术优势:


interface AICapabilities {
  // 视觉理解能力
  visualUnderstanding: {
    pageStructure: boolean;    // 页面结构理解
    elementRecognition: boolean; // 元素识别
    contentExtraction: boolean;  // 内容提取
    imageAnalysis: boolean;     // 图片分析
  };
  
  // 语言理解能力
  languageProcessing: {
    intentParsing: boolean;     // 意图解析
    contextUnderstanding: boolean; // 上下文理解
    errorAnalysis: boolean;     // 错误分析
    responseGeneration: boolean; // 响应生成
  };
  
  // 推理决策能力
  reasoning: {
    pathPlanning: boolean;      // 路径规划
    actionSelection: boolean;   // 动作选择
    riskAssessment: boolean;    // 风险评估
    problemSolving: boolean;    // 问题解决
  };
}

模型能力映射:

AI能力维度	采购场景应用	技术实现	预期效果
页面视觉理解	识别商品信息、价格、库存状态	图像分割 + 文字识别	95%准确率
操作序列规划	规划购买流程、选择最优路径	强化学习 + 规则引擎	90%成功率
异常情况处理	处理验证码、页面变化、网络问题	模式识别 + 策略切换	85%自动恢复
结果验证确认	确认订单状态、支付成功、发货信息	逻辑推理 + 状态检查	99%准确性

5.2 技术实现方案

5.2.1 核心执行引擎

基础实现示例:


import { BrowserUse } from 'browser-use';
 
class ProcureBot {
  private browser: BrowserUse;
  
  constructor() {
    this.browser = new BrowserUse({
      model: 'qwen-vl-plus',
      headless: true,
      timeout: 30000
    });
  }
 
  async executeProcurement(order: ProcureOrder): Promise<ExecutionResult> {
    // 构建执行指令
    const task = `
      采购任务:
      - 商品:${order.productUrl}
      - 数量:${order.quantity}
      - 预算:¥${order.maxPrice}
      - 地址:${order.shippingAddress}
 
      请完成:页面验证 → 加购 → 填写地址 → 支付 → 获取订单号
    `;
    
    // 执行并返回结果
    return await this.browser.execute(task);
  }
}

5.2.2 智能操作流程

采购执行流程:

5.2.3 AI决策与控制

智能决策机制:

决策环节	AI能力应用	处理逻辑
商品匹配	视觉理解 + 语义分析	页面信息提取 → 与订单对比 → 匹配度评分
价格判断	数值推理 + 趋势分析	价格对比 → 预算验证 → 合理性评估
异常处理	场景识别 + 策略选择	异常分类 → 策略匹配 → 自动/人工处理
结果验证	状态检查 + 逻辑推理	订单状态确认 → 支付凭证验证 → 结果返回

5.3 异常处理与恢复

5.3.1 多层异常处理策略

异常分类与处理矩阵:

异常类型	检测方式	自动恢复策略	成功率	升级条件
页面结构变化	元素定位失败	AI重新理解页面结构	90%	连续失败3次
网络超时	请求超时异常	指数退避重试	95%	总时间超过10分钟
验证码拦截	图像识别检测	AI图像识别+OCR	75%	识别失败2次
商品缺货	页面文本分析	寻找替代商品	60%	无替代品
支付失败	支付状态检查	切换支付方式	85%	所有方式都失败
反爬虫检测	行为特征识别	随机化操作模式	80%	持续被检测

智能恢复流程:

5.3.2 人机协作机制

协作流程: