A visão artificial está se tornando essencial para o sucesso dos esforços de transformação digital com muitos usos convincentes e muitas opções de solução acessíveis para construí-la adequadamente.
Neste post de blog, você aprenderá o básico da tecnologia de visão por computador e como ela se encaixa no mundo da inteligência artificial (IA), da aprendizagem de máquinas (ML) e do aprendizado profundo. Você também aprenderá como a visão por computador funciona, suas entradas, saídas e tecnologias comuns.
- Inteligência Artificial – máquinas “pensando” como humanos
Qualquer dispositivo que perceba seu ambiente e tome ações que maximizem suas chances de atingir seus objetivos com sucesso, está exibindo IA. Em resumo, a IA é uma máquina que tenta imitar um humano.
Um carro que pára quando comandado por um operador humano aplicando pressão no pedal do freio não exibe inteligência artificial. Um veículo que sente a presença de um obstáculo à frente e aplica os freios exibe alguma inteligência artificial porque respondeu de uma forma semelhante à humana.
Note que a definição de inteligência artificial não trata de como a máquina atingiu este estado. Essa tarefa é o trabalho de seus subconjuntos, tais como a aprendizagem da máquina.
- Aprendizagem de máquina – dados estruturantes para a aprendizagem
A inteligência da visão artificial permite que uma máquina imite as habilidades humanas. A aprendizagem de máquinas é um subconjunto de IA que usa dados para treinar uma máquina sobre como aprender.
Os sistemas de computador executam uma tarefa específica sem instruções codificadas, baseando-se em padrões e inferências. Algoritmos de aprendizagem de máquina são usados onde é desafiador desenvolver um algoritmo codificado convencional para executar a tarefa.
Antes do advento da aprendizagem de máquinas, os programadores codificavam em respostas de máquinas a estímulos específicos.
Ocorria um problema se a máquina encontrasse um novo conjunto de estímulos, quando um codificador humano teria que revisar o código para lidar com as novas entradas. Isto não é escalável na era dos grandes dados.
A aprendizagem da máquina usa dados, em vez de código, para aprender. Os “dados de treinamento” contêm um amplo conjunto de entradas e saídas correspondentes, ou rótulos, pré-atribuídos por humanos.
A máquina usa estes dados para aprender os recursos nomeados, ou qual é a saída esperada para cada valor de entrada. Usando seus novos conhecimentos, ela pode fazer suposições instruídas sobre como lidar com um novo conjunto de dados.
Então, o que dizer do aprendizado profundo, que o torna especial em comparação com o aprendizado tradicional da máquina?
- Aprendizagem profunda – encontrar características latentes com dados não estruturados
Arquiteturas de aprendizado profundo, como redes neurais profundas, redes de crenças profundas, redes neurais recorrentes e redes neurais convolucionais se aplicam à visão artificial. Estas arquiteturas produziram resultados comparáveis e, em alguns casos, superiores aos dos especialistas humanos.
Muitos algoritmos de aprendizagem de máquinas dependem de dados de treinamento estruturados e limpos. Os dados de treinamento são “etiquetados” com seus resultados esperados do motor de aprendizagem da máquina.
O treinamento consiste em ajustar os parâmetros da máquina até receber a saída esperada. Os dados reais devem então fornecer uma saída confiável.
Uma das principais diferenças entre a aprendizagem supervisionada tradicional da máquina e a aprendizagem profunda é que os dados de treinamento da aprendizagem supervisionada tradicional da máquina requerem engenharia de características. O aprendizado profundo, entretanto, muitas vezes não requer esta etapa.