Reconhecimento de vídeo é a próximo desafio para o aprendizado de máquina
O reconhecimento de imagens em movimento poderia dar robôs o equivalente à visão humana, o que lhes permitiria tarefas rotineiras como lavar roupas

Computadores já conseguem reconhecer você em uma imagem, ou em um vídeo, mas será que eles conseguem ver um vídeo, reconhecer padrões e dizer exatamente o que está acontecendo?
Cientistas estão tentando tornar o reconhecimento computacional de vídeo uma realidade e eles estão usando algumas técnicas de reconhecimento de imagem para tornar isso possível.
Pesquisadores de dentro e fora do Google estão fazendo progresso em reconhecimento de vídeo, mas há também desafios para superar, disse Rajat Monga, engenheiro do Google Brain Team responsável pelo TensorFlow, software open source de machine-learning, durante uma sessão de perguntas e respostas no Quora, realizada esta semana.
Os benefícios do reconhecimento de vídeo são enormes. Por exemplo, um computador poderia ser capaz de identificar as atividades e comportamentos da rotina de uma pessoa, um evento ou uma localização. Reconhecimento de vídeo também tornará carros autônomos mais viáveis.
Fora isso, a tecnologia tem potencial de dar olhos digitais a robôs, combinando técnicas de visão computacional com as de reconhecimento de vídeo.
O reconhecimento de imagem agora se tornou algo comum, mas o reconhecimento de vídeo envolve analisar imagens relacionadas e juntas em uma mesma sequência, algo que para a visão humana é natural.
Muitos ganhos em reconhecimento de vídeo já chegaram, graças aos avanços em modelos de deep learning (aprendizado profundo) que direcionam o reconhecimento de imagem.
“Com a sequência de frames em cada vídeo que são relacionados um ao outro, isso fornece uma perspectiva muito mais rica no mundo real, permitindo os modelos criarem uma visão 3D do mundo, sem a necessidade de uma visão estéreo”, disse Monga.
No contexto de deep learning, há desafios relacionados ao reconhecimento de imagem. Computadores conseguem reconhecer alguns itens em imagens, mas não tudo. Há uma desvantagem quando diz respeito a visão semelhante a humana em robôs.
Monga adiantou que a visão semelhante a capacidade humana em reconhecimento de vídeo está bem distante de acontecer.
Alimente-me com dados
Computadores precisam ser treinados para reconhecer imagens em modelos de deep learning, e há um amplo repositório que pode ser usado para cruzar referências de objetos em imagens. Grandes bancos de dados como o ImageNet, que conta com cerca de 14 milhões de imagens, têm ajudado a acelerar o reconhecimento de visão. Mas ainda são necessários banco de dados maiores.
Pesquisadores do Google estudam como o deep learning poderia ajudar robôs em sua coordenação e no aprendizado através de vídeo preditivo.
O Google tem tornado a Inteligência Artificial algo grande em suas operações de cloud e usando machine learning para o Google Now, mapeamento de ruas e outros serviços. O deep learning também está sendo usado pelos seus carros sem motorista para navegar em ruas de forma segura. E na Vision API, disponível como serviço na Google Cloud Platform. Companhias estão também usando Inteligência Artificial para se livrar de bugs em códigos.

Aprendizado de máquina – tanto de treinamento e inferência – está se tornando melhor com computação mais rápida, algoritmos e banco de dados, mas há ainda espaço suficiente para melhoras, ressaltou Monga.
A ascensão de hardware mais rápidos e chips customizados como o Tensor Processing Unit do Google ajudarão a impulsionar o aprendizado profundo. Cálculos de nível baixo em GPUs estão direcionando a maioria dos modelos de deep learning hoje, mas hardware mais ágeis tornarão o aprendizado e a inferência mais rápidos.
“Isso se mantém um desafio mesmo que nós estejamos obtendo chips customizados, há demanda contínua para mais computação”, disse Monga.
Há ainda necessidade de bancos de dados mais amplos e mais algoritmos, que oferecem fórmula subjacente para conduzir operações de deep learning.
Treinar redes neurais, que treinam modelos de deep-learning, “fica muito difícil sem os bancos de dados”, acusou Monga.
O aprendizado de máquina está crescendo rápido e muitas companhias estão adotando as ferramentas do Google. Variantes do TensorFlow do Google tem sido desenvolvidas por companhias como Nvidia e Movidius (que está sendo adquirida pela Intel) para servidores e dispositivos incorporados.
Vale lembrar que nesta semana, o Google, Amazon, Facebook, Microsoft e IBM formaram a iniciativa Partnership on AI, uma organização para conduzir melhores práticas em inteligência artificial. Além disso, Elon Musk, Peter Thiel, Sam Altman e Jessica Livingston comprometeram US$ 1 bilhão para o projeto Open AI, que está se tornando o centro nervoso da atividade de inteligência artificial na indústria de TI.
Para ficar por dentro dos avanços nessa área é recomendável acompanhar de perto o blog do Google Brain Team.
