L'application de l'inspection visuelle par IA dans les grues intelligentes : du choix des caméras au levage sans intervention humaine
Analyse approfondie d'une solution technique complète d'inspection visuelle par IA pour les grues intelligentes et les ponts roulants autonomes, couvrant le choix des caméras, les algorithmes de détection d'objets YOLOv8/v10, le processus d'entraînement des modèles, le déploiement en périphérie sur Jetson et l'étalonnage des coordonnées, afin d'aider le secteur manufacturier à opérer sa transition vers l'intelligence artificielle.
Cet article explique comment les technologies d'inspection visuelle par IA peuvent améliorer les performances des grues intelligentes et des ponts roulants autonomes. Il aborde le choix du matériel de caméra, la comparaison des algorithmes YOLOv8 et YOLOv10, le processus d'entraînement des modèles, le déploiement en périphérie sur Jetson ainsi que les techniques d'étalonnage des coordonnées, offrant ainsi au secteur manufacturier des références techniques directement applicables.
I. Inspection visuelle par IA : la capacité de perception fondamentale des chariots aériens autonomes
L'inspection visuelle par IA est une technologie de perception basée sur des caméras industrielles et des algorithmes d'apprentissage profond, qui permet aux ponts roulants d'identifier et de localiser en temps réel les charges à manipuler. Les ponts roulants traditionnels reposent sur l'évaluation visuelle de la position des charges par l'opérateur, ce qui se traduit par une faible efficacité et des risques élevés pour la sécurité. Après le déploiement d'un système de vision par IA, la précision de positionnement des charges est passée de ±100 mm à ±5 mm, le temps de cycle a été réduit de 35 % et les incidents de sécurité ont diminué de 90 %. La vision par IA est désormais une technologie standard pour les ponts roulants automatisés de niveau L3/L4, et constitue également un élément clé de la transformation numérique dans des secteurs tels que la métallurgie, la papeterie et les ports.Solutions d'application de l'IA de Krud Heavy IndustryPlusieurs projets ont déjà été menés à bien dans divers secteurs.
II. Choix du matériel photographique : solutions techniques pour quatre types de scénarios
La diversité des environnements d'utilisation des ponts roulants impose d'adapter les caméras à chaque situation. Voici les recommandations de choix de caméras pour quatre scénarios types :
| Scène | Précision | Solutions recommandées | coût |
|---|---|---|---|
| Reconnaissance et localisation des charges | ±50 mm | Caméra de vision industrielle Basler acA1300 + Intel D435 | 6 500 yuans |
| Cibler précisément l'adversaire | ±5 mm | Basler acA2500 + Hikvision 3D à lumière structurée | 18 000 yuans |
| Surveillance des zones de sécurité | 200 ms en temps réel | Banner iVu + Lidar de sécurité SICK | 28 000 yuans |
| Environnement à haute température dans les aciéries | ±50 mm | Caméra thermique Optris PI 640 + housse de refroidissement | 20 000 yuans |
Pour les prises de vue aériennes à partir d'un pont roulant (distance de travail de 8 à 15 m), il est recommandé d'utiliser un objectif de 25 à 50 mm. La formule de calcul de la distance focale est la suivante : f = largeur du capteur × distance de travail / largeur du champ de vision. Par exemple, pour une cible de 1,5 m, une distance de 8 m et un capteur IMX265 de 7,1 mm, f = 7,1 × 8 000 / 1 500 ≈ 38 mm ; il convient alors de choisir un objectif à focale fixe de 35 ou 50 mm. Dans les aciéries, il est nécessaire d'installer un capot de protection à refroidissement par air, et l'indice de protection IP de la caméra doit être au moins IP65.
III. Comparaison pratique des algorithmes de détection d'objets : YOLOv8/v10 dans le cadre d'une application de drone
Les algorithmes de détection d'objets sont une technologie d'apprentissage profond permettant de localiser et de classer des objets dans une image ; ils constituent l'unité décisionnelle centrale du système de vision de la grue. Voici les données issues de tests réels des principaux algorithmes sur GPU et sur des appareils périphériques Jetson :
| algorithme | Inférence sur GPU | Inference sur Jetson | mAP | Taille du modèle | Situations recommandées |
|---|---|---|---|---|---|
| YOLOv8n | 1,2 ms | 8 ms | 42% | 6,3 Mo | Le choix idéal pour le déploiement en périphérie |
| YOLOv10n | 1,1 ms | 7 ms | 43.5% | 5,5 Mo | La dernière solution allégée |
| YOLOv8s | 1,8 ms | 12 ms | 45.5% | 21,5 Mo | La précision avant tout |
| RT-DETR | 4,0 ms | 28 ms | 53% | 72 Mo | Haute précision de bout en bout |
Projets recommandés : Pour la détection standard des charges, YOLOv10n est déployé sur Jetson Orin NX, avec une fréquence d'images supérieure à 60 images par seconde ; pour le positionnement précis des dispositifs de levage, YOLOv8s est associé à l'estimation de la pose PnP, fournissant des paramètres de localisation à 6 degrés de liberté ; Pour la surveillance de sécurité, YOLOv8n+ByteTrack est utilisé pour le suivi de plusieurs personnes ; pour la reconnaissance des codes-barres, une solution combinée OpenCV ArUco+YOLOv8 est employée. Il est recommandé d'utiliser 801 images en vue de dessus (TP) et 300 images en vue de côté (TP) pour l'entraînement, couvrant diverses conditions de travail telles que le jour, la nuit et la forte luminosité.

IV. Processus d'entraînement du modèle et étalonnage des coordonnées
Le modèle de vision haute précision 70% en est à la phase de préparation des données.Normes relatives aux données : Au moins 500 images originales par catégorie, annotées au format PascalVOC ou COCO. La stratégie d'amélioration doit être adaptée au scénario de la grue : désactiver la rotation à grand angle (angle de vue en plongée fixe), renforcer l'amélioration par fusion Mosaic (simulation d'empilement d'objets) et l'amélioration de la luminosité HSV (variations d'éclairage importantes dans l'aciérie), avec les paramètres suivants : Mosaic = 1,0, Mixup = 0,1, luminosité HSV = 0,4.
Paramètres d'entraînement : Entrée 640×640, 200 époques, lot = 32, lr = 0,001, une seule carte RTX 4090. Déploiement possible uniquement si mAP50 ≥ 90 et %. Après conversion du modèle en TensorRT et quantification en INT8, le volume est réduit à 1/4, avec un temps de latence d'inférence sur Jetson < 10 ms.
Calibrage des coordonnées : Les coordonnées en pixels sont converties dans le système de coordonnées du robot de manutention grâce à un calibrage œil-main. Une matrice de transformation rigide entre la caméra et le robot de manutention est établie à l'aide d'une grille quadrillée ; la précision du calibrage a une incidence directe sur le taux de réussite de la préhension. Il est recommandé de procéder à un recalibrage trimestriel afin de compenser les dérives causées par les vibrations du robot de manutention.
V. Architecture de déploiement en périphérie et points clés de l'ingénierie
Chaque pont roulant est équipé d'un Jetson Orin NX (environ 5 000 yuans) chargé de l'inférence en temps réel, tandis que le serveur de l'atelier centralise les données de plusieurs appareils pour mettre à jour les modèles.
Processus de déploiement : ① La caméra est fixée sous le chariot ou au-dessus du dispositif de levage → ② Calibrage combiné interne et externe → ③ Conversion PyTorch → ONNX → TensorRT (précision de quantification INT8 ≤ 21 TP3T) → ④ Transmission des données de localisation via MQTT/Modbus TCP vers le PLC → ⑤ Mise à jour incrémentielle OTA après acquisition de nouvelles données. En combinaison avecSystème de maintenance prédictive basé sur l'IA, le modèle permet d'effectuer un diagnostic préliminaire des pannes directement en périphérie.
Pièges courants : ① Protection insuffisante — Les vibrations du pont roulant et la poussière peuvent entraîner un desserrage de la caméra ou l'infiltration de poussière. Il est recommandé d'opter pour un indice de protection IP67 et d'installer un support anti-vibrations ; ② Surexposition due à l'arc électrique — Lors des opérations de soudage dans les aciéries, il est nécessaire d'activer le mode HDR ou une stratégie d'exposition dynamique, en limitant le temps d'exposition à une plage comprise entre 1 et 5 ms ; ③ Dérive de l'étalonnage — Effectuer un contrôle rapide de l'étalonnage à l'aide d'un code ArUco tous les trimestres ; en cas d'écart supérieur à 3 mm, procéder à un réétalonnage.
VI. Avantages de la solution de vision par IA de Krud Heavy Industry
Krud Heavy Industry a livré au total plus de 30 systèmes de ponts roulants autonomes à vision IA, destinés à divers environnements industriels tels que les aciéries, les usines d'aluminium, les papeteries et les ports. L'entreprise propose un service complet, de la sélection à la formation en passant par le déploiement, prenant en charge les niveaux d'automatisation L3 à L4, avec un MTBF supérieur à 5 000 heures. Nous proposons gratuitement une étude sur site et un rapport d'évaluation du retour sur investissement.
Foire aux questions (FAQ)
- Quelles sont les fonctionnalités offertes par l'inspection visuelle par IA sur les grues ?
- L'inspection visuelle par IA est principalement utilisée dans quatre domaines : l'identification et la localisation des charges, la préhension et le positionnement de précision (±5 mm), la surveillance des personnes dans les zones de sécurité, ainsi que la reconnaissance des codes-barres et des codes d'identification. Une fois déployée, la précision de levage passe de ±100 mm à ±5 mm.
- Quelle caméra choisir pour un système d'inspection visuelle sur pont roulant ?
- En fonction du scénario : pour la reconnaissance des charges, optez pour la Basler acA1300 + Intel D435 (6 500 ¥) ; pour un positionnement précis, optez pour la Basler acA2500 + lumière structurée 3D (18 000 ¥) ; pour la surveillance de sécurité, optez pour Banner iVu + radar SICK (28 000 ¥) ; pour les températures élevées dans les aciéries, optez pour l'imageur thermique Optris PI 640 + gaine de refroidissement (20 000 ¥).
- Lequel des deux, YOLOv8 ou YOLOv10, est le plus performant dans le cas des grues mobiles ?
- La vitesse d'inférence de YOLOv10n est de 1,1 ms (GPU) / 7 ms (Jetson), ce qui est plus rapide que les 1,2 ms / 8 ms de YOLOv8n. De plus, sa précision mAP de 43,51 TP3T est supérieure aux 42,01 TP3T de la version v8n. et avec un modèle plus compact de seulement 5,5 Mo, il constitue actuellement la solution privilégiée pour les déploiements en périphérie.
Normes applicables : GB/T 28264-2012 « Système de gestion de la surveillance de la sécurité des appareils de levage », ISO 10218 « Norme de sécurité pour les robots industriels », CEI 62443 « Sécurité des réseaux de communication industriels »
Mots-clés : Inspection visuelle par IA, grues intelligentes, ponts roulants autonomes, détection d'objets YOLOv8, ponts roulants à vision industrielle, modernisation intelligente des ponts roulants, Krud Heavy Industry