Aplicação da inspeção visual por IA em gruas inteligentes: da seleção da câmara ao transporte sem intervenção humana
Análise aprofundada da solução de engenharia completa da tecnologia de inspeção visual por IA em guindastes inteligentes/pontes rolantes não tripuladas, abrangendo a seleção de câmaras, os algoritmos de deteção de alvos YOLOv8/v10, o processo de treino de modelos, a implementação em borda com Jetson e a calibração de coordenadas, ajudando o setor da indústria transformadora a concretizar a sua transição para a inteligência.
Este artigo analisa como a tecnologia de inspeção visual por IA capacita guindastes inteligentes e pontes rolantes não tripuladas, abrangendo a seleção de hardware de câmaras, a comparação entre os algoritmos YOLOv8 e YOLOv10, o processo de treino de modelos, a implementação em borda com Jetson e as técnicas de calibração de coordenadas, fornecendo à indústria transformadora uma referência de engenharia pronta a ser implementada.
I. Inspeção visual por IA: a capacidade de perceção central dos carros aéreos não tripulados
A inspeção visual por IA é uma tecnologia de deteção baseada em câmaras industriais e algoritmos de aprendizagem profunda, que permite que as gruas identifiquem e localizem os alvos de trabalho em tempo real. As gruas tradicionais dependem da avaliação visual do operador para determinar a posição da carga, o que resulta em baixa eficiência e elevados riscos de segurança. Após a implementação do sistema de visão artificial, a precisão de localização do transporte elevou-se de ±100 mm para ±5 mm, o tempo de ciclo reduziu-se em 35%, e os incidentes de segurança diminuíram em 90%. A visão artificial tornou-se uma tecnologia padrão para pontes rolantes automatizadas de nível L3/L4, sendo também um elemento-chave na transformação digital de setores como a metalurgia, a indústria papeleira e os portos.Soluções de aplicação de IA da Krud Heavy IndustryJá foram implementados com sucesso vários casos práticos em diversos setores.
II. Seleção do hardware da câmara: soluções de engenharia para quatro tipos de cenários
A diversidade do ambiente de trabalho das pontes rolantes determina que as câmaras tenham de ser personalizadas de acordo com cada cenário. Seguem-se quatro sugestões de seleção de câmaras para cenários típicos:
| Cenário | Precisão | Solução recomendada | Custo |
|---|---|---|---|
| Identificação + localização de cargas | ±50 mm | Câmara de visão artificial Basler acA1300 + Intel D435 | 6.500 ¥ |
| Alinhamento preciso | ±5 mm | Basler acA2500 + Hikvision 3D Structured Light | 18 000 ¥ |
| Monitorização de áreas de segurança | 200 ms em tempo real | Banner iVu + Lidar de segurança SICK | 28 000 ¥ |
| Ambiente de altas temperaturas nas siderurgias | ±50 mm | Câmara termográfica Optris PI 640 + bolsa de refrigeração | 20 000 ¥ |
Para filmagens aéreas com grua (distância de trabalho de 8 a 15 m), recomenda-se a utilização de lentes de 25 a 50 mm. A fórmula para calcular a distância focal é: f = largura do sensor × distância de trabalho / largura do campo de visão. Por exemplo, para um alvo de 1,5 m, a uma distância de 8 m e com um sensor IMX265 de 7,1 mm, f = 7,1 × 8000 / 1500 ≈ 38 mm; deve-se escolher uma lente de focagem fixa de 35 ou 50 mm. Em cenários de siderurgia, é necessário equipar adicionalmente uma cobertura de proteção com refrigeração a ar, sendo que a classificação IP da câmara não deve ser inferior a IP65.
III. Algoritmos de deteção de objetos: Comparação de resultados práticos do YOLOv8/v10 em cenários de veículos aéreos não tripulados
Os algoritmos de deteção de objetos são uma tecnologia de aprendizagem profunda que permite localizar e classificar objetos em imagens, constituindo a unidade de decisão central do sistema de visão do Tianche. Seguem-se os dados de testes reais dos principais algoritmos em GPUs e dispositivos de borda Jetson:
| Algoritmo | Inferência por GPU | Inferência no Jetson | mAP | Dimensões do modelo | Situações recomendadas |
|---|---|---|---|---|---|
| YOLOv8n | 1,2 ms | 8 ms | 42% | 6,3 MB | A escolha ideal para a implementação na periferia |
| YOLOv10n | 1,1 ms | 7 ms | 43.5% | 5,5 MB | A solução mais recente e leve |
| YOLOv8s | 1,8 ms | 12 ms | 45.5% | 21,5 MB | Prioridade à precisão |
| RT-DETR | 4,0 ms | 28 ms | 53% | 72 MB | Alta precisão de ponta a ponta |
Recomendações de projetos: A deteção de cargas normais utiliza o YOLOv10n implementado no Jetson Orin NX, com uma taxa de fotogramas superior a 60 fps; o alinhamento preciso dos dispositivos de suspensão utiliza o YOLOv8s + estimativa de pose PnP, produzindo parâmetros de localização de 6 graus de liberdade; Para monitorização de segurança, utiliza-se o YOLOv8n+ByteTrack para rastreamento de múltiplas pessoas; para reconhecimento de códigos QR, utiliza-se uma solução em série com OpenCV ArUco+YOLOv8. Recomenda-se que os dados de treino incluam 80% de imagens aéreas e 20% de imagens laterais, abrangendo diversas condições operacionais, como dia, noite e luz intensa.

IV. Processo de treino do modelo e calibração de coordenadas
O modelo de visão de alta precisão 70% está na fase de preparação de dados.Normas relativas aos dados: Cada categoria deve conter pelo menos 500 imagens originais, com o formato de anotação PascalVOC ou COCO. A estratégia de reforço deve ser ajustada para o cenário da grua — desativar a rotação de ângulo amplo (perspetiva aérea fixa), reforçar o reforço de mistura Mosaic (simulação de empilhamento de detritos) e o reforço de luminosidade HSV (variações bruscas de iluminação na siderurgia), configurando Mosaic=1,0, Mixup=0,1 e luminosidade HSV=0,4.
Parâmetros de treino: Entrada 640×640, 200 epochs, batch=32, lr=0,001, placa única RTX 4090. Só pode ser implementado se mAP50 ≥ 90%. Após a conversão do modelo para TensorRT e quantização em INT8, o volume foi reduzido para 1/4, com um atraso de inferência no Jetson <10 ms.
Calibração de coordenadas: As coordenadas de píxeis são convertidas para o sistema de coordenadas do robô de ponte através da calibração olho-mão. Utiliza-se uma malha de quadrados para estabelecer a matriz de transformação rígida entre a câmara e o robô de ponte; a precisão da calibração afeta diretamente a taxa de sucesso da recolha. Recomenda-se realizar uma recalibração trimestral para compensar o desvio causado pela vibração do robô de ponte.
V. Arquitetura de implementação na periferia e pontos-chave de engenharia
Cada ponte rolante está equipada com um Jetson Orin NX (cerca de 5.000 ¥) responsável pela inferência em tempo real, enquanto o servidor da oficina agrega os dados de várias unidades para atualizar os modelos.
Processo de implementação: ① A câmara é fixada na parte inferior do carro ou acima do dispositivo de suspensão → ② Calibração conjunta com referências internas e externas → ③ Conversão PyTorch → ONNX → TensorRT (A precisão da quantização INT8 tem um impacto ≤ 21 TP3T) → ④ Saída de dados de localização via MQTT/Modbus TCP para o PLC → ⑤ Atualização incremental via OTA após a recolha de novos dados. Em conjunto comSistema de manutenção preditiva com IA, o modelo permite realizar um diagnóstico preliminar de avarias diretamente no dispositivo periférico.
Armadilhas comuns: ① Proteção insuficiente — A vibração da grua + o pó podem causar o afrouxamento da câmara ou a entrada de poeira; recomenda-se a utilização de um grau de proteção IP67 e a instalação de suportes antivibração; ② Sobreexposição pela luz do arco elétrico — Durante a soldadura na siderurgia, é necessário ativar o HDR ou uma estratégia de exposição dinâmica, mantendo o tempo de exposição entre 1 e 5 ms; ③ Desvio de calibração — Efetue uma verificação rápida de calibração trimestralmente utilizando o código ArUco; se o desvio for superior a 3 mm, é necessário recalibrar.
VI. Vantagens da solução de visão artificial da Krud Heavy Industry
A Krud Heavy Industry já entregou mais de 30 sistemas de pontes rolantes não tripuladas com visão artificial, abrangendo aplicações em siderurgias, fábricas de alumínio, indústrias de papel e portos. Oferecemos um serviço completo, desde a seleção do modelo e a formação até à implementação, suportando níveis de automação L3 a L4, com um MTBF superior a 5.000 horas. Oferecemos gratuitamente inspeções no local e relatórios de avaliação do ROI.
Perguntas frequentes (FAQ)
- Que funções pode a inspeção visual por IA desempenhar em gruas?
- A inspeção visual por IA é utilizada principalmente em quatro cenários principais: identificação e localização de cargas, preensão e alinhamento precisos (±5 mm), monitorização de pessoas em zonas de segurança e reconhecimento de códigos QR/códigos de identificação. Após a sua implementação, a precisão do transporte por grua aumentou de ±100 mm para ±5 mm.
- Que câmara é a mais adequada para um sistema de inspeção visual em pontes rolantes?
- De acordo com o cenário: para identificação de cargas suspensas, opte pela Basler acA1300 + Intel D435 (6.500 ¥); para alinhamento preciso, opte pela Basler acA2500 + luz estruturada 3D (18.000 ¥); Para vigilância de segurança, opte pela Banner iVu + radar SICK (28 000 ¥); para altas temperaturas em siderurgias, opte pela termovisão Optris PI 640 + manga de arrefecimento (20 000 ¥).
- Qual é o melhor entre o YOLOv8 e o YOLOv10 em cenários com guindastes?
- O YOLOv10n apresenta uma velocidade de inferência de 1,1 ms (GPU)/7 ms (Jetson), sendo mais rápido do que o YOLOv8n (1,2 ms/8 ms), e uma precisão mAP de 43,51 TP3T, superior aos 42,01 TP3T do v8n. O modelo tem apenas 5,5 MB, sendo mais compacto, o que o torna a solução preferida para implementação em dispositivos periféricos atualmente.
Normas aplicáveis: GB/T 28264-2012 «Sistema de gestão de monitorização de segurança de máquinas de elevação», ISO 10218 «Norma de segurança para robôs industriais», IEC 62443 «Segurança das redes de comunicação industriais»
Palavras-chave: Inspeção visual por IA, gruas inteligentes, pontes rolantes não tripuladas, deteção de alvos com YOLOv8, pontes rolantes com visão artificial, modernização inteligente de pontes rolantes, Krud Heavy Industry