[네이버 부스트 캠프] AI-Tech - Lv2 week2(6)

학습기록 - 36

오늘 할 일

  • Instance/Panoptic Segmentation and Landmark Localization
  • 코어타임 때 못했던 것 다시 복습

1. 강의 복습 내용

Instance segmentation

Instance segmentation = Semantic segmentation + distinguishing insatnces

  • Instance Segmenters

    • Mask R-CNN

      기존 RoI pooling은 RoI Align 방식을 이용하는 데, 이전에 했던 방법은 ‘정수형’을 이용했지만 RoI Align 방식은 Interpolation을 이용하여 소수점까지 지원 가능

      Mask R-CNN = Faster R-CNN + Mask branch

      Untitled

      Summary of the R-CNN family Untitled

    • YOLACT

      Single Stage 구조, Real time instance segmentation network

      prototypes : Mask를 생성해낼 수 있는 component들을 생성해낸다.

      prediction head : prototype을 잘 합성하기 위한 계수들을 생성

      object마다 Mask를 생성하는 것이 아닌 prototype과 prediction head와의 선형 결합을 통해 조금 더 효율적인 마스크 생성이 키 포인트다.

      Untitled

    • YolactEdge

      소형화된 모바일 시스템을 위해 좀 더 획기적이 방법을 이용
      feature를 전달한 속도 개선
      아직까지 한계점이 많다.

      Untitled

  • Panoptic segmentation

    배경 정보 및 물체들의 instances까지 고려한다.

    Untitled

    • UPSNet

      FPN 구조, Semantic Head, Instance Head, Panoptic logits

      Untitled

      Untitled

    • VPSNet (for video)

      이전 시간 (타우) 대에 있던 feature에 대해 모션벡터에 따라서 warping을 해준다.

      모션 벡터 : 한 영상에서 다음 영상에 대해 대응점에 대한 어디로 갔는 지에 대한 정보

      Untitled

      현재 프레임의 feature와 이전 프레임에서의 feature(+모션 벡터)를 합쳐서 쓴다.
      기존의 roi와 현재 roi의 연관성을 tracking head를 통해서 파악한다.

      Untitled

      다음은 UPSNet과 동일하게 한다.

      Untitled

  • Landmark localization

    얼굴, 사람 몸통의 특징 (landmark)를 추정하는 것

    Untitled

    • Coordinate regression vs heatmap classification

      Untitled

      landmark가 주어졌을 때, Gaussian Heatmap으로 바꾸려면?, 그 반대는?
      숙제를 이용해서 확인

      Untitled

    • Hourglass network
      landmark detection에 맞춘 구조, U-Net을 쌓은 구조와 같다. Stacked hourglass modules

      영상 전체를 작게 만들어서 receptive field를 크게 만든다.? 점점 더 구체화 시켜나가는 구조다.

      Untitled

      U-Net과 다른 점은?
      ‘+’로 되어있다. (U-net : concat) Convolution layer를 통해서 전달 (U-net : skip-connection)
      거의 FPN(Feature Pyramid Network)

      Untitled

    • DensePose

      • landmark가 아닌 신체 전체를 파악 (UV-map 표현법)

        Untitled

      • UV-map은 3D 이미지를 2D 좌표로 평면화 시킨다. 3D 이미지에 color를 넣기 위해서 고안된 것인데, 여기서 좌표의 특성을 넣은 것
        DensePose는 UV-map을 이용해서 RGB 이미지 상의 인간의 모든 픽셀을 3D 표면에 매핑하는 것

        Untitled

      • 구조
        Fast R-CNN 구조에서 Mask branch를 UV map구조로 나타낸 것을 볼 수 있다.
        데이터 표현, 데이터셋을 제공하는 논문

        Untitled

      • Retina Face
        다양한 task를 한 번에 푸는 것, 얼굴에 대해 조금씩 다른 테스트에 대한 gradient를 통해서 적은 데이터로 강인한 학습 효과를 보여준다.

        Untitled

      결국, Target task를 어떻게 가져가냐에 따라 응용이 될 수 있다. 큰 디자인 패턴의 하나 !

      Untitled

  • Detecting objects as keypoints
    bounding box가 아닌 keypoint를 이용한 detection

    • Cornernet
      bounding box = {top-left, bottom-right} corners
      heatmaps -> Embeddings을 통해 corner들의 pair를 찾아서 bounding box의 구조를 만들어준다.
      single stage 구조, 성능이 살짝 떨어짐

      Untitled

    • CenterNet

    +Center Point를 추가한 것
    Untitled

    +width, height
    Untitled

    성능 결과,

    Untitled

2. 고민 내용, 결과 (과제 수행 과정, 결과물 정리)

과제

3. 피어세션 정리

4. 학습 회고

  • 이전 코어타임 때 제대로 학습을 하지 못했기 때문에 연휴를 이용해서 다시 공부 해본다!