MaGGIe wprowadza zestawy danych I-HIM50K i M-HIM2K, zawierające ponad 180 000 syntetyzowanych masek ludzkich do oceny odporności matowania instancji.MaGGIe wprowadza zestawy danych I-HIM50K i M-HIM2K, zawierające ponad 180 000 syntetyzowanych masek ludzkich do oceny odporności matowania instancji.

Synteza danych do mattingu wielu instancji ludzi za pomocą MaskRCNN i BG20K

2025/12/20 02:30

Abstrakt i 1. Wprowadzenie

  1. Prace Powiązane

  2. MaGGIe

    3.1. Wydajne Maskowane Kierowane Wydzielanie Instancji

    3.2. Spójność Czasowa Cech i Mat

  3. Zbiory Danych Wydzielania Instancji

    4.1. Wydzielanie Instancji Obrazu i 4.2. Wydzielanie Instancji Wideo

  4. Eksperymenty

    5.1. Wstępne trenowanie na danych obrazowych

    5.2. Trenowanie na danych wideo

  5. Dyskusja i Bibliografia

\ Materiał Uzupełniający

  1. Szczegóły architektury

  2. Wydzielanie obrazu

    8.1. Generowanie i przygotowanie zbioru danych

    8.2. Szczegóły trenowania

    8.3. Szczegóły ilościowe

    8.4. Więcej wyników jakościowych na obrazach naturalnych

  3. Wydzielanie wideo

    9.1. Generowanie zbioru danych

    9.2. Szczegóły trenowania

    9.3. Szczegóły ilościowe

    9.4. Więcej wyników jakościowych

8. Wydzielanie obrazu

Ta sekcja rozszerza proces wydzielania obrazu, dostarczając dodatkowych informacji na temat generowania zbiorów danych i kompleksowych porównań z istniejącymi metodami. Zagłębiamy się w tworzenie zbiorów danych I-HIM50K i M-HIM2K, oferujemy szczegółowe analizy ilościowe i prezentujemy dalsze wyniki jakościowe, aby podkreślić skuteczność naszego podejścia.

8.1. Generowanie i przygotowanie zbioru danych

Zbiór danych I-HIM50K został zsyntetyzowany ze zbioru HHM50K [50], który jest znany z obszernej kolekcji mat obrazów ludzkich. Wykorzystaliśmy model MaskRCNN [14] Resnet-50 FPN 3x, trenowany na zbiorze danych COCO, aby odfiltrować obrazy z pojedynczą osobą, co dało podzbiór 35 053 obrazów. Zgodnie z metodologią InstMatt [49], obrazy te zostały skomponowane z różnorodnymi tłami ze zbioru BG20K [29], tworząc scenariusze z wieloma instancjami z 2-5 osobami na obraz. Osoby zostały przeskalowane i umieszczone w celu zachowania realistycznej skali i uniknięcia nadmiernego nakładania się, co wskazuje IoU instancji nieprzekraczające 30%. Proces ten dał 49 737 obrazów, ze średnią 2,28 instancji na obraz. Podczas trenowania maski kierujące były generowane przez binaryzację mat alfa i zastosowanie losowych operacji porzucania, dylatacji i erozji. Przykładowe obrazy z I-HIM50K są pokazane na Rys. 10.

\ Zbiór danych M-HIM2K został zaprojektowany w celu testowania odporności modelu na różne jakości masek. Składa się z dziesięciu masek na instancję, generowanych przy użyciu różnych modeli MaskRCNN. Więcej informacji o modelach użytych w tym procesie generowania pokazano w Tabeli 8. Maski zostały dopasowane do instancji na podstawie najwyższego IoU z mat alfa prawdy podstawowej, zapewniając minimalny próg IoU wynoszący 70%. Maski, które nie spełniały tego progu, były sztucznie generowane z prawdy podstawowej. Proces ten zaowocował kompleksowym zestawem 134 240 masek, z czego 117 660 dla obrazów kompozytowych i 16 600 dla obrazów naturalnych, zapewniając solidny punkt odniesienia do oceny maskowanego kierowanego wydzielania instancji. Pełny zbiór danych I-HIM50K i M-HIM2K zostanie udostępniony po przyjęciu tej pracy.

\ Rysunek 10. Przykłady zbioru danych I-HIM50K. (Najlepiej oglądać w kolorze).

\ Tabela 8. Dziesięć modeli o różnej jakości masek jest używanych w MHIM2K. Modele MaskRCNN pochodzą z detectron2 trenowanych na COCO z różnymi ustawieniami.

\

:::info Autorzy:

(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);

(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);

(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);

(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).

:::


:::info Ten artykuł jest dostępny na arxiv na licencji CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Okazja rynkowa
Logo Multichain
Cena Multichain(MULTI)
$0.03961
$0.03961$0.03961
+6.42%
USD
Multichain (MULTI) Wykres Ceny na Żywo
Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z service@support.mexc.com w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.