Avanços na Visão Computacional Impulsionam a Autonomia de Transporte

A visão é um poderoso input sensorial humano. Ele permite tarefas e processos complexos que consideramos garantidos. Com o aumento da AoT™ (Autonomy of Things) em diversas aplicações, desde transporte e agricultura até robótica e medicina, o papel das câmeras, computação e aprendizado de máquina no fornecimento de visão e cognição semelhantes aos humanos está se tornando significativo. A visão computacional como disciplina acadêmica decolou na década de 1960, principalmente em universidades envolvidas no campo emergente de inteligência artificial (IA) e aprendizado de máquina. Ele progrediu dramaticamente nas próximas quatro décadas, à medida que avanços significativos em tecnologias de semicondutores e computação foram feitos. Avanços recentes em deep learning e inteligência artificial aceleraram ainda mais a aplicação da visão computacional para fornecer percepção e cognição do ambiente em tempo real e baixa latência, possibilitando autonomia, segurança e eficiência em diversas aplicações. O transporte é uma área que se beneficiou significativamente.

LiDAR (Light Detection and Ranging) é uma abordagem de imagem óptica ativa que usa lasers para determinar o ambiente 3D em torno de um objeto. É uma das tecnologias que as soluções de visão computacional (que dependem exclusivamente da luz ambiente e não usam lasers para percepção 3D) estão tentando interromper. O tema comum é que motoristas humanos não precisam de LiDAR para percepção de profundidade, então as máquinas também não. Recursos atuais de condução autônoma comercial L3 (autonomia completa em geografias específicas e condições climáticas, com o motorista pronto para assumir o controle em segundos) produtos hoje usar LiDAR. Técnicas puramente baseadas em visão ainda não foram capazes de oferecer essa capacidade comercialmente.

PUBLICIDADE

TeslaTSLA
é um proponente dominante do uso de visão computacional passiva baseada em câmera para fornecer autonomia ao veículo de passageiros. Durante o recente evento AI Day da empresa, Elon Musk e seus engenheiros fizeram uma apresentação impressionante de seus recursos de IA, gerenciamento de dados e computação que suportam, entre outras iniciativas, o recurso Full Self Driving (FSD) em vários modelos Tesla. O FSD exige que o motorista humano esteja sempre engajado na tarefa de dirigir (o que é consistente com a autonomia L2). Atualmente, esta opção está disponível em 160,000 veículos adquiridos por clientes nos EUA e Canadá. Um conjunto de 8 câmeras em cada veículo fornece um mapa de ocupação de 360°. Os dados da câmera (e outros) desses veículos são usados ​​para treinar sua rede neural (que usa rotulagem automática) para reconhecer objetos, traçar trajetórias potenciais de veículos, selecionar as melhores e ativar as ações de controle apropriadas. ~75 atualizações da rede neural ocorreram nos últimos 12 meses (~1 atualização a cada 7 minutos) à medida que novos dados são coletados continuamente e erros de rotulagem ou erros de manobra são detectados. A rede treinada executa ações de planejamento e controle por meio de uma arquitetura redundante integrada de eletrônica de computação desenvolvida especificamente. A Tesla espera que o FSD eventualmente leve a veículos autônomos (AVs), que fornecem autonomia completa em certos domínios de design operacional sem a necessidade de envolvimento de motorista humano (também conhecido como autonomia L4).

Outras empresas como Phiar, Helm.ai e NODAR também estão seguindo o caminho da visão computacional. O NODAR visa expandir significativamente o alcance da imagem e a percepção 3D dos sistemas de câmeras estéreo, aprendendo a ajustar o desalinhamento da câmera e os efeitos de vibração por meio de algoritmos patenteados de aprendizado de máquina. Recentemente, arrecadou US$ 12 milhões para a produção de seu principal produto, o Hammerhead™, que utiliza câmeras de nível automotivo prontas para uso e plataformas de computação padrão.

Além do custo e tamanho, um argumento frequente contra o uso do LiDAR é que ele tem alcance e resolução limitados em comparação com as câmeras. Por exemplo, LiDARs com alcance de 200 m e 5-10 M pontos/segundo (PPS semelhante à resolução) estão disponíveis hoje. A 200 m, pequenos obstáculos como tijolos ou detritos de pneus registrarão pouquíssimos pontos (talvez 2-3 na vertical e 3-5 na horizontal), dificultando o reconhecimento do objeto. As coisas ficam ainda mais grosseiras em intervalos mais longos. Em comparação, as câmeras megapixel padrão rodando a 30 Hz podem gerar 30 M pixels/segundo, permitindo um reconhecimento superior de objetos mesmo em longas distâncias. Câmeras mais avançadas (12 M pixels) podem aumentar ainda mais isso. A questão é como utilizar esses dados maciços e produzir percepção acionável com latências de nível de milissegundos, baixo consumo de energia e condições de iluminação degradadas.

PUBLICIDADE


Reconhecimento, uma empresa com sede na Califórnia, está tentando resolver esse problema. Segundo o CEO Mark Bolitho, sua missão é “entregar percepção visual sobre-humana para veículos totalmente autônomos.” A empresa foi fundada em 2017, arrecadou US$ 75 milhões até o momento e tem 70 funcionários. RK Anand, ex-aluno da Juniper Networks, é um dos cofundadores e diretor de produtos. Ele acredita que o uso de câmeras de alta resolução, com faixa dinâmica > 120 dB, rodando em altas taxas de quadros (por exemplo, OnSemi, Sony e Omnivision) fornece os dados necessários para criar informações 3D de alta resolução, o que é fundamental para a realização de AVs. Os facilitadores para isso são:

  1. ASICs personalizados para processar os dados com eficiência e produzir mapas 3D precisos e de alta resolução do ambiente do carro. Estes são fabricados em um processo TSMC de 7 nm, com um tamanho de chip de 100 mm², operando a uma frequência de 1 GHz.
  2. Algoritmos proprietários de aprendizado de máquina para processar milhões de pontos de dados offline para criar a rede neural treinada, que pode operar com eficiência e aprender continuamente. Essa rede fornece a percepção e inclui classificação e detecção de objetos, segmentação semântica, detecção de faixas, sinais de trânsito e reconhecimento de semáforos
  3. Minimizando o armazenamento fora do chip e operações de multiplicação que consomem muita energia e criam alta latência. O design ASIC do Recogni é otimizado para matemática logarítmica e usa adição. Outras eficiências são obtidas agrupando pesos de forma otimizada na rede neural treinada.

Durante a fase de treinamento, um LiDAR comercial é usado como base para treinar dados de câmera estéreo de alta resolução e alta faixa dinâmica para extrair informações de profundidade e torná-lo robusto contra desalinhamento e efeitos de vibração. De acordo com o Sr. Anand, sua implementação de aprendizado de máquina é tão eficiente que pode extrapolar estimativas de profundidade além dos intervalos de treinamento fornecidos pela calibração LiDAR (que fornece a verdade do terreno para um alcance de 100 m).

PUBLICIDADE

Os dados de treinamento acima foram conduzidos durante o dia com um par estéreo de câmeras de 8.3 megapixels rodando a taxas de quadros de 30 Hz (~ 0.5 B pixels por segundo). Ele demonstra a capacidade da rede treinada de extrair informações 3D na cena além do alcance de 100 m com o qual foi treinado. A solução da Recogni também pode extrapolar seu aprendizado com dados diurnos para o desempenho noturno (Figura 2).

PUBLICIDADE

De acordo com o Sr. Anand, os dados de alcance são precisos dentro de 5% (em longas distâncias) e perto de 2% (em distâncias mais curtas). A solução oferece 1000 TOPS (trilhões de operações por segundo) com latência de 6 ms e consumo de energia de 25 W (40 TOPS/W), que lidera o setor. Os concorrentes que usam matemática inteira são > 10 vezes menores nessa métrica. A solução da Recogni está atualmente em testes em vários fornecedores automotivos Tier 1.

Profetizar (“prever e ver onde está a ação”), com sede na França, usa suas câmeras baseadas em eventos para AVs, Sistemas Avançados de Assistência ao Motorista (ADAS), automação industrial, aplicativos de consumo e saúde. Fundada em 2014, a A empresa fechou recentemente seu financiamento da rodada C de US$ 50 milhões, com um total de US$ 127 milhões arrecadados até o momento. A Xiaomi, fabricante líder de telefones celulares, é um dos investidores. O objetivo do Prophesee é emular a visão humana na qual os receptores na retina reagem à informação dinâmica. O cérebro humano se concentra no processamento de mudanças na cena (especialmente para dirigir). A ideia básica é usar arquiteturas de câmera e pixel que detectam mudanças na intensidade da luz acima de um limite (um evento) e fornecem apenas esses dados à pilha de computação para processamento adicional. Os pixels funcionam de forma assíncrona (não enquadrados como em câmeras CMOS comuns) e em velocidades muito mais altas, pois não precisam integrar fótons como em uma câmera convencional baseada em quadros e esperar que todo o quadro termine antes da leitura dos dados. As vantagens são significativas – menor largura de banda de dados, latência de decisão, armazenamento e consumo de energia. O primeiro sensor de visão baseado em eventos VGA de nível comercial da empresa apresentava uma alta faixa dinâmica (> 120 dB), baixo consumo de energia (26 mW no nível do sensor ou 3 nW/evento). Também foi lançada uma versão HD (Alta Definição) (desenvolvida em conjunto com a Sony), com tamanho de pixel líder do setor (< 5 μm).

PUBLICIDADE

Esses sensores formam o núcleo da plataforma de detecção Metavision®, que usa IA para fornecer percepção inteligente e eficiente para aplicativos de autonomia e está sendo avaliada por várias empresas no espaço de transporte. Além da percepção voltada para o futuro para AVs e ADAS, a Prophesee está ativamente envolvida com os clientes para monitoramento na cabine do driver para aplicativos L2 e L3, veja a Figura 4:

As oportunidades automotivas são lucrativas, mas os ciclos de design são longos. Nos últimos dois anos, a Prophesee tem visto um interesse e tração significativos no espaço de visão de máquina para aplicações industriais. Isso inclui contagem de alta velocidade, inspeção de superfície e monitoramento de vibração.

PUBLICIDADE

Prophesee anunciou recentemente colaborações com os principais desenvolvedores de sistemas de visão de máquina para explorar oportunidades em automação industrial, robótica, automotiva e IoT (Internet das Coisas). Outras oportunidades imediatas são a correção de desfoque de imagem para telefones celulares e aplicativos AR/VR. Eles usam sensores de formato inferior aos usados ​​para oportunidades de ADAS/AV de longo prazo, consomem energia ainda menor e operam com latência significativamente menor.


Israel é um inovador líder em alta tecnologia, com investimentos de risco significativos e um ambiente de start-up ativo. Desde 2015, ocorreram cerca de US$ 70 bilhões em investimentos liderados por empreendimentos no setor de tecnologia. Uma parte disso está na área de visão computacional. A Mobileye liderou essa revolução em 1999, quando Amnon Shashua, um dos principais pesquisadores de IA da Universidade Hebraica, fundou a empresa para se concentrar na percepção baseada em câmera para ADAS e AVs. A empresa entrou com pedido de IPO em 2014 e foi adquirida pela IntelINTC
em 2017 por US$ 15 bilhões. Hoje, é facilmente o player líder no domínio da visão computacional e AV e, recentemente, anunciou sua intenção de solicitar um IPO e tornar-se uma entidade independente. A Mobileye teve receitas de US$ 1.4 bilhão/ano e perdas modestas (US$ 75 milhões). Ele fornece recursos de visão computacional para 50 OEMs automotivos que o implantam em 800 modelos de carros para recursos ADAS. No futuro, eles pretendem liderar em autonomia de veículo L4 (sem necessidade de motorista) usando essa experiência em visão computacional e recursos LiDAR baseados na plataforma de fotônica de silício da Intel. A avaliação da Mobileye é estimada em ~ $ 50 bilhões quando eles finalmente abrirem o capital.

PUBLICIDADE

Capital de Champel, com sede em Jerusalém, está na vanguarda do investimento em empresas que desenvolvem produtos baseados em visão computacional para diversas aplicações, desde transporte e agricultura até segurança e proteção. Amir Weitman é cofundador e sócio-gerente e iniciou sua empresa de risco em 2017. O primeiro fundo investiu US$ 20 milhões em 14 empresas. Um de seus investimentos foi na Innoviz, que se tornou pública por meio de uma fusão da SPAC em 2018 e se tornou um unicórnio LiDAR. Liderado por Omer Keilaf (que veio da unidade de tecnologia do Corpo de Inteligência da Força de Defesa de Israel), a empresa hoje é líder em implementações de LiDAR para ADAS e AVs, com várias vitórias de design na BMW e na Volkswagen.

O segundo fundo da Champel Capital (Impact Deep Tech Fund II) foi iniciado em janeiro de 2022 e arrecadou US$ 30 milhões até o momento (a meta é de US$ 100 milhões até o final de 2022). Um foco dominante é a visão computacional, com US$ 12 milhões implantados em cinco empresas. Três deles usam visão computacional para transporte e robótica.

Tanque U, com sede em Haifa, iniciou suas operações em 2018 e levantou US$ 10 milhões em financiamento. Dan Valdhorn é o CEO e é graduado da Unidade 8200, um grupo de elite de alta tecnologia dentro da Força de Defesa de Israel responsável pela inteligência de sinais e descriptografia de código. Os produtos SaaS (Software as a Service) da TankU automatizam e protegem processos em ambientes externos complexos que atendem veículos e motoristas. Esses produtos são utilizados por proprietários de frotas de veículos, carros particulares, postos de abastecimento e recarga elétrica para evitar roubos e fraudes em transações financeiras automatizadas. Os serviços de combustível veicular geram aproximadamente US$ 2 trilhões em receitas globais anualmente, dos quais os proprietários de frotas de veículos particulares e comerciais consomem 40% ou US$ 800 bilhões. Varejistas e proprietários de frotas perdem cerca de US$ 100 bilhões anualmente devido a roubo e fraude (por exemplo, usando um cartão de combustível de frota para veículos particulares não autorizados). Fraude CNP (cartão ausente) e adulteração/roubo de combustível são fontes adicionais de perda, especialmente ao usar detalhes de cartão roubado em aplicativos móveis para pagamentos.

PUBLICIDADE

O produto TUfuel da empresa facilita o pagamento seguro com um toque, bloqueia a maioria dos tipos de fraude e alerta os clientes quando há suspeita de fraude. Ele faz isso com base em um mecanismo de IA treinado em dados de CCTVs existentes nessas instalações e dados de transações digitais (incluindo POS e outros dados de back-end). Parâmetros como trajetória e dinâmica do veículo, identificação do veículo, tempo de viagem, quilometragem, tempo de abastecimento, quantidade de combustível, histórico de combustível e comportamento do motorista são alguns atributos monitorados para detectar fraudes. Esses dados também ajudam os varejistas a otimizar a operação do site, aumentar a fidelidade do cliente e implantar ferramentas de marketing baseadas em visão. De acordo com o CEO Dan Valdhorn, sua solução detecta 70% da frota, 90% dos eventos de fraude de cartão de crédito e 70% de adulteração.

sonol é uma empresa de serviços de energia que possui e opera uma rede de 240 estações e lojas de conveniência em Israel. A TUfuel está implantada em seus locais e demonstrou segurança aprimorada, prevenção de fraudes e fidelidade do cliente. Testes de produtos estão em andamento nos EUA em colaboração com um fornecedor líder global de postos de gasolina e equipamentos para lojas de conveniência. Iniciativas semelhantes também estão em andamento na África e na Europa.

PUBLICIDADE

Com sede em Tel-Aviv ITC foi fundada em 2019 por acadêmicos de aprendizado de máquina da Universidade Ben-Gurion. A ITC cria produtos SaaS que “medir o fluxo de tráfego, prever o congestionamento e mitigá-lo através da manipulação inteligente dos semáforos – antes que os congestionamentos comecem a se formar.” Semelhante ao TankU, ele usa dados de câmeras prontas para uso (já instaladas em vários cruzamentos de tráfego) para obter dados de tráfego ao vivo. Dados de milhares de câmeras em uma cidade são analisados ​​e parâmetros como tipo de veículo, velocidade, direção do movimento e sequência de tipos de veículos (caminhões versus carros) são extraídos através da aplicação de algoritmos de IA proprietários. As simulações prevêem o fluxo de tráfego e possíveis situações de engarrafamento com até 30 minutos de antecedência. Os semáforos são ajustados usando esses resultados para suavizar o fluxo de tráfego e evitar congestionamentos.

O treinamento do sistema de IA leva um mês de dados visuais em uma cidade típica e envolve uma combinação de aprendizado supervisionado e não supervisionado. A solução da ITC já está implantada em Tel-Aviv (classificada em 25º lugar nas cidades mais congestionadas do mundo em 2020), com milhares de câmeras instaladas em centenas de cruzamentos controlados por semáforos. O sistema da ITC atualmente gerencia 75 mil veículos, que devem continuar crescendo. A empresa está instalando um capacidade semelhante em Luxemburgo e está iniciando testes nas principais cidades dos EUA. Globalmente, sua solução gerencia 300,000 veículos com unidades operacionais em Israel, EUA, Brasil e Austrália. Dvir Kenig, o CTO, é apaixonado por resolver esse problema – devolver às pessoas o tempo pessoal, reduzir os gases de efeito estufa, aumentar a produtividade geral e, o mais importante, reduzir os acidentes em cruzamentos congestionados. De acordo com o Sr. Kenig, “nossas implantações demonstram uma redução de 30% nos engarrafamentos, reduzindo o tempo de condução improdutivo, estresse, consumo de combustível e poluição.”

PUBLICIDADE

Robótica interna foi Fundado em 2018 e recentemente arrecadou $ 18 milhões em financiamento. A empresa, sediada perto de Tel-Aviv, Israel, desenvolve e vende soluções de drones autônomos para segurança interna, segurança e monitoramento de manutenção. O CEO e cofundador, Doron Ben-David, possui uma significativa experiência em robótica e aeronáutica acumulada no IAIIAI
(um grande contratante principal de defesa) e MAFAT (uma organização de pesquisa avançada dentro do Ministério da Defesa de Israel), que é semelhante à DARPA nos Estados Unidos. Os crescentes investimentos em edifícios inteligentes e mercados de segurança comercial alimentam a necessidade de sistemas autônomos que possam usar visão computacional e outras entradas sensoriais em pequenos e grandes espaços comerciais internos (escritórios, data centers, armazéns e espaços de varejo). A Indoor Robotics visa esse mercado usando drones internos equipados com câmeras prontas para uso e sensores de alcance térmico e infravermelho.

Ofir Bar-Levav é o Diretor de Negócios. Ele explica que a falta de GPS impediu que os drones internos se localizassem dentro de edifícios (geralmente sem GPS ou imprecisos). Além disso, faltavam soluções de ancoragem e alimentação convenientes e eficientes. A Indoor Robotics aborda isso com quatro câmeras montadas em drones (superior, inferior, esquerda, direita) e sensores de alcance simples que mapeiam com precisão um espaço interno e seu conteúdo. Os dados da câmera (as câmeras fornecem dados de localização e mapeamento) e os sensores térmicos (também montados no drone) são analisados ​​por um sistema de IA para detectar possíveis problemas de segurança, proteção e manutenção e alertar o cliente. Os drones se alimentam por meio de um “teto de encaixe”, que economiza espaço valioso e permite a coleta de dados durante o carregamento. As vantagens financeiras de automatizar esses processos mundanos onde o trabalho humano é complexo e caro em termos de recrutamento, retenção e treinamento são evidentes. O uso de drones aéreos versus robôs terrestres também traz vantagens significativas em termos de capital e custos operacionais, melhor uso do espaço físico, liberdade de movimento sem encontrar obstáculos e eficiência na captura de dados da câmera. De acordo com o Sr. Bar-Levav, o TAM (Total Addressable Market) da Indoor Robotics em sistemas de segurança inteligentes internos será de US$ 80 bilhões até 2026. Os principais locais de clientes hoje incluem armazéns, data centers e campus de escritórios das principais corporações globais.

PUBLICIDADE


A visão computacional está revolucionando o jogo da autonomia – em automação de movimento, segurança, monitoramento de edifícios inteligentes, detecção de fraudes e gerenciamento de tráfego. O poder dos semicondutores e da IA ​​são facilitadores poderosos. Uma vez que os computadores dominam essa incrível modalidade sensorial de forma escalável, as possibilidades são infinitas.

Fonte: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/