[네이버 부스트 캠프] AI-Tech - Lv2 week2(6)

September 19, 2021

학습기록 - 36

오늘 할 일

Instance/Panoptic Segmentation and Landmark Localization
코어타임 때 못했던 것 다시 복습

1. 강의 복습 내용

Instance segmentation

Instance segmentation = Semantic segmentation + distinguishing insatnces

Instance Segmenters
- Mask R-CNN
  
  기존 RoI pooling은 RoI Align 방식을 이용하는 데, 이전에 했던 방법은 ‘정수형’을 이용했지만 RoI Align 방식은 Interpolation을 이용하여 소수점까지 지원 가능
  
  Mask R-CNN = Faster R-CNN + Mask branch
  
  Summary of the R-CNN family
- YOLACT
  
  Single Stage 구조, Real time instance segmentation network
  
  prototypes : Mask를 생성해낼 수 있는 component들을 생성해낸다.
  
  prediction head : prototype을 잘 합성하기 위한 계수들을 생성
  
  object마다 Mask를 생성하는 것이 아닌 prototype과 prediction head와의 선형 결합을 통해 조금 더 효율적인 마스크 생성이 키 포인트다.
- YolactEdge
  
  소형화된 모바일 시스템을 위해 좀 더 획기적이 방법을 이용
  feature를 전달한 속도 개선
  아직까지 한계점이 많다.
Panoptic segmentation

배경 정보 및 물체들의 instances까지 고려한다.
- UPSNet
  
  FPN 구조, Semantic Head, Instance Head, Panoptic logits
- VPSNet (for video)
  
  이전 시간 (타우) 대에 있던 feature에 대해 모션벡터에 따라서 warping을 해준다.
  
  모션 벡터 : 한 영상에서 다음 영상에 대해 대응점에 대한 어디로 갔는 지에 대한 정보
  
  현재 프레임의 feature와 이전 프레임에서의 feature(+모션 벡터)를 합쳐서 쓴다.
  기존의 roi와 현재 roi의 연관성을 tracking head를 통해서 파악한다.
  
  다음은 UPSNet과 동일하게 한다.
Landmark localization

얼굴, 사람 몸통의 특징 (landmark)를 추정하는 것
- Coordinate regression vs heatmap classification
  
  landmark가 주어졌을 때, Gaussian Heatmap으로 바꾸려면?, 그 반대는?
  숙제를 이용해서 확인
- Hourglass network
  landmark detection에 맞춘 구조, U-Net을 쌓은 구조와 같다. Stacked hourglass modules
  
  영상 전체를 작게 만들어서 receptive field를 크게 만든다.? 점점 더 구체화 시켜나가는 구조다.
  
  U-Net과 다른 점은?
  ‘+’로 되어있다. (U-net : concat) Convolution layer를 통해서 전달 (U-net : skip-connection)
  거의 FPN(Feature Pyramid Network)
- DensePose
  - landmark가 아닌 신체 전체를 파악 (UV-map 표현법)
  - UV-map은 3D 이미지를 2D 좌표로 평면화 시킨다. 3D 이미지에 color를 넣기 위해서 고안된 것인데, 여기서 좌표의 특성을 넣은 것
    DensePose는 UV-map을 이용해서 RGB 이미지 상의 인간의 모든 픽셀을 3D 표면에 매핑하는 것
  - 구조
    Fast R-CNN 구조에서 Mask branch를 UV map구조로 나타낸 것을 볼 수 있다.
    데이터 표현, 데이터셋을 제공하는 논문
  - Retina Face
    다양한 task를 한 번에 푸는 것, 얼굴에 대해 조금씩 다른 테스트에 대한 gradient를 통해서 적은 데이터로 강인한 학습 효과를 보여준다.
  결국, Target task를 어떻게 가져가냐에 따라 응용이 될 수 있다. 큰 디자인 패턴의 하나 !
Detecting objects as keypoints
bounding box가 아닌 keypoint를 이용한 detection
- Cornernet
  bounding box = {top-left, bottom-right} corners
  heatmaps -> Embeddings을 통해 corner들의 pair를 찾아서 bounding box의 구조를 만들어준다.
  single stage 구조, 성능이 살짝 떨어짐
- CenterNet
+Center Point를 추가한 것

+width, height

성능 결과,