Otaczamy obiekt na zdjęciu ramką i przypisujemy temu wycinkowi label.
zaznaczamy każdy pixel obiektu specyficznym kolorem i do koloru dodajemy label. Np. jeśli na zdjęciu jest kilka osób każda otrzyma swój label person1, person2, itp..
działa jak instance ale zaznaczamy wszystkie obiekty na obrazie odpowiednimi kolorami. Np. jeśli na zdjęciu jest kilka osób każda otrzyma taki sam label np. person.
zaznaczamy specyficzne punkty obiektu tak aby można było stworzyć szkielet np. zaznaczamy głowę, ręce, nogi i mamy szkielet człowieka.
gdzie x, y to współrzędne środka obrazu, a width, height to szerokość i wysokość ramki. Należy polegać na istniejących zbiorach i tworzyć własne tylko w ostateczności. Dobry zbiór - COCO - ma boundingboxy, segmentację i keypointy.
Sprawdzenie jaki jest stosunek ramki wyznaczonej przez model do ramki prawdziwej (wyznaczonej w danych testowych)
Jest to wzór którym obliczamy jak dobrze nasz model wykrywa obiekty, za pomocą macierzy kowariancji.
Bierzemy prostokąt/kwadrat, ustanawiamy go jako okno i przesuwamy go po całym obrazie. Potem zmieniamy wymiary okna i znowu przesuwamy po całym obrazie i tak kilka razy.
Algorytm znajdujący iteracyjnie obszary podobne kolorystycznie, następnie po nich się szuka obszaru zainteresowań. Zmniejsza obszar pszeszukiwań prostokątami.
Pierwszy model który implementował rozpoznawanie obiektów na obrazie. Do każdej klasy wyuczono osobno binarnie SVM'a.
- długo się liczy
- mamy tak po prawdzie kilka sieci neuronowych które trzeba nauczyć.
- selective search potrafi generować błędy w obszarach.
Komponent odpowiadający za poprawianie początkowo wykrytych bounding boxów w sieci.
- wykorzystanie receptive field
- Zmiana miejsca rozpoznawania obiektu do ostatniej warstwy konwolucyji.
Krok po kroku:
- Obrazek przepuszczany przez siec konwolucyjna
- Wyciagamy ostatnia warstwe sieci konwolucyjnej
- Wyliczamy z niej ROI
- Tutaj przeprowadzamy analizę czy mamy obiekt
Zastąpienie selective search'a modelem sieci który będzie rozróżniał obszary. (Hasło Region Proposal)
Krok po kroku:
- Puszczamy obrazek przez siec i dostajemy ostatnią warstwę konwolucji
- Puszczamy to do drugiej podsieci która generuje ROI
- Wynik jest zwracany do pierwszej sieci która przeprowadza na bazie tego rozpoznania, następnie zwracane są bounding boxy i rozpoznany obiekt
- Non Maxiumum Suppresion
- patrzymy czy wszystkie bounding boxy mają tą samą klasę
- Wybieramy ten który ma największą pewność po softmaxie
- resztę usuwamy
- dzielenie obrazku na sekcje
- dla każdej ramki trzeba proponować co w niej się znajduje.
- zaznaczamy ramki z odpowiednim znacznikiem pewności (Confidence Score), tym większy score, to grubsza ramka
- zozstawiamy tylko tą co ma największy CS.
Wprowadzono:
- Batch normalization
- High Resolution Classifier
To zestaw predefiniowanych ramek (bounding boxes) o różnych proporcjach i skalach, które są używane jako punkty odniesienia dla rzeczywistych ramek otaczających obiekty w obrazie. Ułatwiają one modelowi wykrywanie obiektów o różnych rozmiarach i proporcjach, szczególnie gdy na jednym obrazie występuje wiele obiektów blisko siebie lub się nakładających.
Został wytrenowany na dwóch różnych zbiorach danych.
- zastosowanie połączeń rezydualnych
- dodanie dodatkowych wyjścć wcześniej by umieć rozróżniać wielkość elementów, wcześniejsze iteracje sobie z małymi obiektami nie radziły