Solution de surveillance de sécurité par IA pour ponts roulants : reconnaissance des charges et détection des personnes à l'aide de YOLOv8
En matière de surveillance de sécurité des ponts roulants, le plus grand risque n’est pas la défaillance du matériel, mais le fait que des personnes pénètrent dans la zone alors que la machine est encore en marche. Les solutions traditionnelles, qui reposent sur des barrières et des barrières photoélectriques, présentent de nombreux angles morts, génèrent de nombreuses fausses alertes et entraînent des coûts de maintenance élevés. La surveillance de sécurité par IA visuelle est passée, ces deux dernières années, du stade ’ utilisable » à celui de « pratique » : une caméra industrielle associée à un boîtier de calcul en périphérie Jetson suffit pour détecter en temps réel l’état de la charge, identifier toute intrusion de personnes et vérifier le port du casque de sécurité, avec une précision de reconnaissance supérieure à 98%, pour un coût unitaire inférieur à 5 000 yuans.
I. Architecture générale du système : conception à quatre couches
Le système de surveillance de sécurité par IA visuelle est divisé en quatre couches logiques en fonction de ses fonctionnalités. Les couches sont découplées les unes des autres via des protocoles standard (MQTT/API RESTful/RTSP) et permettent un déploiement en cascade, qu'il s'agisse d'un seul pont roulant ou de plusieurs ponts roulants dans l'ensemble de l'atelier.
1.1 Couche de perception
La couche de perception est composée de caméras industrielles installées sous le pont roulant et sur le chariot ; elle est chargée de capturer des flux vidéo en temps réel de la zone de levage, des allées situées de part et d'autre des rails et de la zone de travail du personnel. Les caméras sont connectées aux nœuds de calcul en périphérie via un câble réseau PoE ou un réseau Wi-Fi industriel, et transmettent des flux vidéo compressés au format H.265 en 1080p à 30 images par seconde.
1.2 Couche algorithmique
La couche algorithmique s'exécute sur un dispositif de calcul en périphérie (NVIDIA Jetson Orin NX), où le modèle YOLOv8 est déployé pour effectuer le raisonnement de détection des cibles — nous avons déjà rédigé un article à ce sujetContrôle en ligne par vision artificielle des soudures des ponts roulants, qui traite également de l'expérience de déploiement de YOLO dans le contexte des ponts roulants. Les résultats de la détection comprennent : la position des personnes et leurs contours, le port du casque de sécurité, le type de charge et la zone de levage, ainsi que l'état de la ligne de sécurité. Le temps de latence de l'inférence est maintenu en dessous de 30 ms, ce qui répond aux exigences de la surveillance en temps réel.
1.3 Couche applicative
La couche applicative convertit les résultats de détection de la couche algorithmique en jugements logiques de sécurité : intrusion d’une personne dans la zone dangereuse de fonctionnement du pont roulant → déclenchement d’une alarme sonore et lumineuse et ralentissement du pont ; absence de personne dans la zone de levage → autorisation de fonctionner à pleine vitesse ; casque de sécurité non porté → enregistrement de l'infraction et prise de photo pour archivage. La couche applicative est également chargée de l'interaction avec le PLC du pont roulant ; elle transmet les signaux de sécurité au module de sécurité du PLC via les protocoles Modbus TCP ou Profinet.
1.4 Couche de présentation
La couche de présentation propose un tableau de bord de surveillance sur le Web et des notifications d'alerte sur mobile, affichant en temps réel les images de surveillance, les historiques d'alerte, l'état de fonctionnement et les statistiques de chaque pont roulant. Les données sont stockées dans une base de données SQLite locale et permettent de consulter l'historique des 90 derniers jours.
| Niveau | Composants principaux | Protocole de communication | Lieu de déploiement |
|---|---|---|---|
| Couche de perception | Caméras industrielles, lampes d'éclairage d'appoint, codeurs | RTSP / GigE Vision | Pont roulant / Sous le chariot |
| Couche algorithmique | Jetson Orin NX, modèle YOLOv8 | Moteur d'inférence TensorRT | À l'intérieur de l'armoire électrique du pont roulant |
| Couche applicative | Moteur logique de sécurité, module d'interface PLC | Modbus TCP / Profinet | Nœud périphérique / Armoire PLC de la grue |
| Couche de présentation | Interface Web, application mobile, base de données | API MQTT / RESTful | Salle de contrôle de l'atelier / Serveur cloud |
II. Sélection du modèle YOLOv8 et comparaison des performances
YOLOv8 est un framework de détection d'objets en temps réel lancé par Ultralytics en 2023. Il propose cinq modèles pré-entraînés (N, S, M, L et X) couvrant différents scénarios de déploiement, allant des modèles légers à ceux offrant une haute précision. Dans le cadre de la surveillance de la sécurité des grues, le choix du modèle nécessite de trouver un compromis entre la vitesse d'inférence, la précision de détection et le coût matériel.
| Modèle | Nombre de participants | mAP50 | Latence FP16 (ms) | Retard INT8 (ms) | Matériel recommandé |
|---|---|---|---|---|---|
| YOLOv8n | 3,2 M | 37.3 | 4.5 | 2.1 | Jetson Nano |
| YOLOv8s | 11,2 Mo | 44.9 | 8.7 | 3.8 | Jetson Orin Nano |
| YOLOv8m | 25,9 M | 50.2 | 16.1 | 7.2 | Jetson Orin NX ⭐ |
| YOLOv8l | 43,7 M | 52.9 | 26.4 | 12.3 | Jetson Orin NX |
| YOLOv8x | 68.2M | 53.9 | 44.8 | 21.5 | Jetson Orin AGX |
推荐方案:采用YOLOv8m + Jetson Orin NX组合。INT8量化后推理延迟7.2ms,单台边缘设备可同时处理4路1080P视频流,总延迟控制在30ms以内,满足天车安全监控的实时性要求,单路成本约4500元。
三、边缘端硬件方案对比
边缘计算设备的选择决定了系统的推理性能和部署成本。以下对比三种主流方案在天车安全监控场景下的表现:
| Paramètres | Jetson Orin NX ⭐ | Jetson Orin Nano | 工控机(i5+独显) |
|---|---|---|---|
| AI算力(TOPS) | 100 | 40 | 20~30 |
| 功耗(W) | 15~25 | 7~15 | 65~150 |
| 同时处理路数 | 4路1080P | 2路1080P | 2~4路1080P |
| 工作温度(℃) | -25~80 | -25~80 | 0~50 |
| 单路成本(元) | ~4,500 | ~3,000 | ~6,000 |
| Mode d'installation | 天车电气柜DIN导轨 | 天车电气柜DIN导轨 | 需单独控制箱 |
Jetson Orin NX在算力、功耗、耐温和安装便利性上全面优于工控机方案,是目前天车视觉AI边缘部署的最优选择。

四、吊物识别实现详解
吊物识别是天车视觉AI的核心功能之一,需要识别钢卷、钢坯、钢板、模具、集装箱等多种吊物类型,并在吊运过程中持续追踪其位置——配合天车物联网远程监控平台,可以实现吊物从识别到追踪到入库的全流程数据闭环。
4.1 数据采集与标注
建议采集5000~10000张现场图像,覆盖不同光照条件(白天/夜间/逆光)、不同吊物姿态(正摆/侧摆/旋转)和不同背景(干净/杂乱/遮挡)。标注采用YOLO格式,每张图像标注吊物边界框和类别标签。使用LabelImg或CVAT工具,单人标注效率约100张/小时。
4.2 模型训练参数
# YOLOv8m 训练配置(关键参数)
model = YOLO('yolov8m.pt')
results = model.train(
data='crane_dataset.yaml',
epochs=200,
imgsz=640,
batch=16,
lr0=0.01,
lrf=0.01,
optimizer='AdamW',
augment=True,
hsv_h=0.015, # 色调增强
hsv_s=0.7, # 饱和度增强
hsv_v=0.4, # 亮度增强
degrees=5.0, # 旋转增强(天车场景吊物有小角度倾斜)
translate=0.1,
scale=0.5,
fliplr=0.5,
mosaic=1.0,
mixup=0.3,
)
训练在NVIDIA RTX 4090上约需4~6小时,mAP50可达到92~95%。训练完成后导出为ONNX格式,再用TensorRT转换为INT8引擎进行边缘部署。
4.3 TensorRT部署
# TensorRT INT8 量化部署命令
trtexec --onnx=yolov8m_crane.onnx \
--saveEngine=yolov8m_crane_int8.engine \
--int8 \
--calib=crane_calib_data \
--buildOnly \
--workspace=4096
INT8量化后模型体积从52MB降至15MB,推理速度从FP16的16ms降至7ms,精度损失控制在1%以内。
五、人员安全检测功能
人员安全检测包括三个子功能:安全区域越界检测、安全帽佩戴检测和电子围栏功能。系统同时运行两个独立的YOLOv8模型实例——一个专门检测人员主体和边界框,另一个检测头部区域并分类安全帽佩戴状态。
| 功能 | 检测对象 | 报警触发 | 联动动作 |
|---|---|---|---|
| 区域越界检测 | 人员进入天车运行危险区 | <=1s | 声光报警+天车减速30% |
| 安全帽检测 | 作业人员头部安全帽佩戴 | <=2s | 抓拍+记录违章+语音提醒 |
| 电子围栏 | 吊物下方区域人员进入 | <=0.5s | 起升停止+声光报警 |
六、工程实施要点
天车视觉AI系统从原型到量产部署,有几个坑是必然会遇到的,提前知道可以少走三个月弯路。
① 光照变化——最大的数据分布偏移源
天车作业区光照受厂房朝向、天气、季节、灯光开关等多因素影响,同一个场景的亮度可能相差100倍。解决方案:训练时使用强数据增强(hsv_h/hsv_s/hsv_v参数),部署时配合LED补光灯(色温5000K、功率30W以上),确保画面最低照度不低于10lux。
② 吊物遮挡与堆叠——单视角检测的死角
吊物在吊运过程中可能与周围设备、其他吊物发生遮挡,影响检测连续性。建议安装2~3个不同角度的相机覆盖同一区域,通过卡尔曼滤波融合多视角检测结果,丢失检测后最多容忍5帧(约170ms@30fps)的预测外推。
③ 振动与抖动——天车运行时的机械干扰
天车大车和小车运行时带动桥架和相机振动,低频(2~10Hz)振动会导致画面模糊和检测抖动。相机支架选用阻尼减振底座(天然橡胶垫层厚度10mm),算法侧配置IOU帧间过滤:检测框在相邻帧间的位移超过像素阈值时标记为虚警并丢弃。
④ 网络延时——无线方案的关键瓶颈
如果采用工业WiFi传输视频流到中控室做集中推理,端到端延迟可能达到100~200ms,无法满足安全联动的实时要求。解决方案:推理放到天车边缘端(Jetson本地),只上传检测结果JSON(约200字节/帧)和报警图像(JPEG压缩<50KB)到中控室——这和天车控制系统四层架构中的边缘计算层设计思路一脉相承。网络影响降到最低。
结语
YOLOv8+Jetson Orin NX的组合,已经把天车视觉AI安全监控的工程门槛降到了可批量复制的程度。一套单路成本控制在5000元以内,识别延迟<50ms,识别精度>95%,已经超过了传统围栏+光电传感器的安全防护水平。下一篇我们讲视觉AI在天车自动对位抓取中的应用——那个场景对精度和延迟的要求又高了一个数量级。
Foire aux questions
问:视觉AI安全监控和传统安全方案(围栏/光栅)比有什么优势?
答:传统方案只能做平面区域防护,无法区分人和物体、无法识别动态行为(佩戴安全帽与否)、无法跟踪吊物位置。视觉AI方案可以同时检测人员闯入、安全帽佩戴、吊物状态等多种信息,还能提供违章抓拍和回溯记录。按GB/T 3811-2023标准,天车运行区域需配置安全防护措施,视觉AI方案已通过SIL2等效安全评估。
问:旧天车没有预留接口怎么加装?对PLC有什么具体要求?
答:可以。系统通过Modbus TCP协议与天车PLC通信,只要PLC支持标准Modbus TCP(西门子S7-1200/1500、三菱FX5U、汇川AM系列、台达DVP系列等主流品牌都支持),就可以在不修改原PLC程序的前提下接入。接入时PLC只需开放一个TCP端口读取安全报警寄存器,不需要额外编程。如果天车本身没有PLC(老式凸轮控制器),加装一台边缘控制器(汇川AM401约2500元)即可,不用换整台天车,改造周期约2天。
问:一套系统管多少台天车?预算多少?旧天车改造可以吗?
答:一台Jetson Orin NX同时处理4路1080P视频,覆盖2台天车。单路成本约4500元(含相机+边缘设备+安装调试),2台天车方案总预算约1.8~2.5万元;10台天车方案部署3台Jetson加一台中控服务器,总预算不超过8万元。按每台天车每年减少1次安全事故计算,不到两年即可收回投资——而且GB/T 3811-2023对天车安全监控有明确合规要求,早改造比被动检查更划算。