CORE ARCHITECTURE
多模态技术架构
架构概览
端侧设备层
RK3588 边缘计算,实时屏幕推理与控制
多模态模型
视觉理解、OCR识别、UI元素检测一体化
云端调度
大模型决策、任务编排、策略优化
防检测机制
硬件级触控模拟,拟人化操作轨迹
端侧 AI 推理引擎
YOLOv8 UI 元素检测
毫秒级识别按钮、输入框、文本等 UI 元素,精度达 99%+
PaddleOCR 文字识别
支持中英文、数字、特殊符号的实时高精度 OCR
RK3588 NPU 加速
6 TOPS 算力,支持 60fps 实时屏幕流推理
60fps
屏幕推理
6 TOPS
NPU算力
<10ms
响应延迟
16路
并发控制
防检测核心技术
全链路模拟真实用户行为,规避平台风控
硬件级触控模拟
通过 USB HID 协议直接与手机通信,实现真正的硬件级触控,非软件注入,无 API 调用痕迹。
随机化指纹生成
每台设备生成唯一且动态变化的设备指纹,包括屏幕分辨率、DPI、时区、语言等参数。
拟人化操作轨迹
基于人类行为数据的轨迹模型,模拟真实的滑动路径、点击间隔和停留时间,拒绝机械化操作。
开放平台 API
RESTful API
标准的 HTTP 接口,支持任何语言快速接入。
POST /api/v1/tasks/create
// 创建一个新的自动化任务
{ "taskId": "123", "action": "start" }
WebSocket Realtime
实时双向通信,毫秒级状态同步。
WSS api.AutoAgent.cc/ws
// 订阅设备状态变更
<- { "event": "device_connected", "id": "dev_01" }