Introdução à Visão Computacional CS 6384 Professor de Visão Computacional Yu Xiang A Universidade do Texas em Dallas 1/18/2023 Yu Xiang 10
Quem sou eu? Professor Assistente em CS na UTD (ingressou no outono de 2021) Área de pesquisa: robótica e visão computacional Cientista Pesquisador Sênior na NVIDIA (2018 – 2021) Robotics Pós-doutorado em Stanford, Universidade de Washington, NVIDIA (2016 – 2018) Ph.D., Engenharia Elétrica e de Computação, Universidade de Michigan, 2016 Mestrado, CS, Universidade Fudan, China, 2010 Bacharel, CS, Universidade Fudan, China, 2007 1/18/2023 Yu Xiang 10
Apresente-se Nome Programa principal Qual ano no programa? Por que você está interessado em visão computacional? 1/18/2023 Yu Xiang 10
O que é Visão Computacional? Detecção de rosto Reconhecimento óptico de caracteres (OCR) Classificação de imagem Segmentação semântica de vigilância de costura de panorama A visão computacional está muito além da classificação e processamento de imagens 1/18/2023 Yu Xiang 10
A origem da visão computacional Entenda o mundo 3D a partir de imagens 2D como humanos Marvin Minsky em um laboratório no MIT em 1968 1/18/2023 Yu Xiang 10 Um projeto de graduação atribuído por Marvin Minsky em 1966 "Passe o verão ligando uma câmera a um computador e fazendo com que o computador descreva o que viu"
Teoria da Visão de David Marr (Neurocientista) https://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/GOMES1/marr.html D. Marr. Visão. W. H. Freeman e Cia., 1982. 1/18/2023 Yu Xiang 10
O que é Visão Computacional? Estimativa de profundidade Estrutura do movimento Reconstrução 3D Entenda o mundo 3D a partir de imagens 2D Estimativa de Pose Humana 3D Dong et al. CVPR'19 1/18/2023 Yu Xiang 10
Uma breve história do currículo e meus marcos escolhidos Anos 1970 Recupere a estrutura 3D do mundo a partir de imagens Mundo de Blocos Roberts: Percepção da máquina de três sólidos dimensionais. Tese de Doutorado, 1963 Rotulagem de linha Estrutura Pictórica Fischler e Elschlager 1973 1/18/2023 Yu Xiang 10
Uma breve história do currículo e meus marcos escolhidos Anos 1980 Algoritmos de correspondência estéreo e algoritmos de fluxo óptico Correspondência estéreo 1/18/2023 Yu Xiang 10 Fluxo óptico
Uma breve história do currículo e meus marcos escolhidos Anos 1980 Forma de técnicas X (forma de sombreamento, forma de textura, forma de sombras) Bordas e contornos Detector de borda astuta. Astuto, 1986 Forma a partir do sombreamento Freeman e Adelson 1991 1/18/2023 Yu Xiang 10
Uma breve história do currículo e meus marcos escolhidos Anos 1980 Campos aleatórios de Markov (MRFs) Geman e Geman: relaxamento estocástico, distribuições de Gibbs e restauração bayesiana de imagens. PAMI, 1984 1/18/2023 Yu Xiang 10
Uma breve história do currículo e meus marcos escolhidos Anos 1990 Estrutura a partir de movimento e reconstrução de múltiplas vistas Transformação de recursos de invariância de escala (SIFT) David Lowe: Reconhecimento de objetos a partir de recursos invariantes de escala local. ICCV, 1999. 1/18/2023 Yu Xiang 10
Uma breve história do currículo e meus marcos escolhidos Anos 1990 Técnicas de aprendizado estatístico começaram a aparecer Rostos próprios 1/18/2023 Yu Xiang 10 Turk e Pentland: Reconhecimento facial usando Eigenfaces. CVPR, 1991
Uma breve história do currículo e meus marcos escolhidos Anos 2000 Abordagens baseadas em dados e aprendizagem Classificadores em cascata para detecção de objetos Viola e Jones: Detecção robusta de objetos em tempo real. IJCV, 2001. 1/18/2023 Yu Xiang 10 AdaBoost
Uma breve história do currículo e meus marcos escolhidos Anos 2000 Histograma de gradientes orientados para detecção de objetos Dalal e Triggs: Histogramas de gradientes orientados para detecção humana. CVPR, 2005. 1/18/2023 Yu Xiang 10
Uma breve história do currículo e meus marcos escolhidos Anos 2000 Modelos de peças deformáveis para detecção de objetos Felzenszwalb et al. Detecção de objetos com modelos baseados em peças treinados discriminativamente. TPAMI, 2009. 1/18/2023 Yu Xiang 10
Uma breve história do currículo e meus marcos escolhidos Anos 2000 Datasets PASCAL VOC, Everingham et al., 2005 - 2012 ImageNet, Deng et al., 2009 1/18/2023 Yu Xiang 10
Uma breve história do currículo e meus marcos escolhidos Anos 2000 Estrutura em grande escala a partir do movimento Agarwal et al. Construindo Roma durante o dia. ICCV, 2009. 1/18/2023 Yu Xiang 10
Uma breve história do currículo e meus marcos escolhidos Anos 2010 Aprendizagem Profunda em CV AlexNet. Krizhevsky et al., 2012, projetado para classificação ImageNet 1/18/2023 Yu Xiang 10
Uma breve história do currículo e meus marcos escolhidos Anos 2010 Redes mais profundas e amplas [Simonyan e Zisserman, 2014] Rede do Google [Szegedy et al., 2014] ResNet [He et al., 2015] 1/18/2023 Yu Xiang 10
Uma breve história do currículo e meus marcos escolhidos Anos 2010 Redes neurais para reconhecimento Detecção de Objetos (Fast RCNN, Girshick, 2015) Segmentação Semântica (FCN, Long et al., 2014) Estimativa de Pose Humana (OpenPose, Cao et al., 2017) Reconhecimento de nuvem de pontos (PoinetNet, Qi et al., 2016) Estimativa de profundidade (Eigen et al. 2014) Fluxo óptico (FlowNet Fischer et al. 2015) 1/18/2023 Yu Xiang 10
Uma breve história do currículo e meus marcos escolhidos Anos 2010 Detecção de profundidade e visão 3D Microsoft Kinect, 2010 KinectFusion, Newcombe et al., 2011 DynamicFusion, Newcombe et al., 2015 1/18/2023 Yu Xiang 10
Uma breve história do currículo e meus marcos escolhidos Anos 2010 Condução autônoma e IA incorporada O conjunto de dados KITTI, Geiger et al., 2012 O ambiente de Gibson, Xia et al., 2018 1/18/2023 Yu Xiang 10
Uma breve história do currículo e meus marcos escolhidos Anos 2010 Representações implícitas neurais DeepSDF, Park et al., 2019 NeRF: Campos de Radiância Neural. Midenhall et al. 2020 1/18/2023 Yu Xiang 10
Uma breve história do currículo e meus marcos escolhidos Anos 2020 Transformadores de visão Dosovitskiy et al., ICLR'21 1/18/2023 Yu Xiang 10
Visão computacional em IA Computação Gráfica Visão Computacional Processamento de linguagem natural Robótica Aprendizado de máquina Aprendizado profundo Realidade Virtual / Realidade Aumentada Raciocínio 1/18/2023 Yu Xiang 10
Visão computacional em IA Datasets Mundo real Teste seus algoritmos no mundo real, por exemplo, com uma câmera 1/18/2023 Yu Xiang 10
O que você aprenderá neste curso? Geometria em visão computacional Modelo da câmera, geometria estéreo, geometria multi-view, etc. Recursos de imagem Feições de ponto, arestas, contornos, etc. Aprendizado profundo em visão computacional Redes neurais convolucionais, redes neurais recorrentes, redes generativas, etc. Reconhecimento visual Detecção de objetos, segmentação semântica, estimativa de pose humana, imagens e idiomas, etc. 1/18/2023 Yu Xiang 10
Política de Classificação Lição de casa (50%) 5 lição de casa no total Submissão individual Projeto em equipe (45%) 2 a 4 alunos para um projeto Proposta de projeto (5%) Relatório intercalar do projeto (10%) Apresentação do projeto (15%) Relatório final do projeto (15%) Atividade em sala de aula (5%) Sem exame final Comece a pensar no projeto do curso 1/18/2023 Yu Xiang 10
Exemplos de projetos de cursos anteriores Grupo 1: Navegação Visual Usando o ORB-SLAM3 (slides, demonstração) Grupo 2: Ensinando Robôs a Explorar Ambientes Invisíveis (slides) Grupo 3: Interagindo com o Ambiente Virtual por meio da Estimativa de Pose de Mão (slides, demonstração) Grupo 4: Segmentação de imagens (slides) Grupo 6: Treinador de Correção de Formulário Baseado em Pose (slides, demonstração) Grupo 8: OpenCV de Detecção de Vagas de Estacionamento (slides) Grupo 9: Verificação de identidade usando redes neurais siamesas (slides) Grupo 11: Classificação de objetos de poucas fotos em cenas de desordem (slides) Grupo 16: Resolvendo Sudoku usando Reconhecimento de Caracteres de Objetos (slides) 1/18/2023 Yu Xiang 10
Exemplos de projetos de cursos anteriores Grupo 10: Resposta visual a perguntas (slides) Grupo 12: Geração de descrição de cena (slides) Grupo 13: Um estudo sobre atestado de artista (slides) Grupo 14: Detecção de objetos com DETR (slides) Grupo 15: Análise Comparativa da Classificação de Imagens de Células Sanguíneas (slides) Grupo 17: Compreensão de Expressão de Referência com Consulta de Áudio (slides) Grupo 18: Segmentação de imagens para ornitorrincos na natureza (slides) Grupo 19: Aterramento de imagem usando transformador baseado em atenção (slides) Grupo 20: Técnicas de ponta para super-resolução de mapas de profundidade (slides) 1/18/2023 Yu Xiang 10
Detalhes do Curso Livro didático Richard Szeliski. Visão Computacional: Algoritmos e Aplicações. 2011ª edição. Springer. Rascunho da segunda edição disponível online https://szeliski.org/Book/ David Forsyth, Jean Ponce. Visão Computacional: Uma Abordagem Moderna, 2ª Edição. Pearson, 2011. (Opcional) Richard Hartley. Geometria de Múltiplas Vistas em Visão Computacional, 2ª Edição. Imprensa da Universidade de Cambridge, 2004. (Opcional) Meu horário de expediente Segunda e Quarta-feira 15:30 – 16:30 ECSS 4.702 Hora de marcação: TBD Acesso e navegação no curso: eLearning 1/18/2023 Yu Xiang 10