Astratto e 1. Introduzione
Lavori Correlati
MaGGIe
3.1. Efficient Masked Guided Instance Matting
3.2. Feature-Matte Temporal Consistency
Dataset di Instance Matting
4.1. Image Instance Matting e 4.2. Video Instance Matting
Esperimenti
5.1. Pre-addestramento su dati di immagini
5.2. Addestramento su dati video
Discussione e Riferimenti
\ Materiale Supplementare
Dettagli dell'architettura
Matting delle immagini
8.1. Generazione e preparazione del dataset
8.2. Dettagli di addestramento
8.3. Dettagli quantitativi
8.4. Ulteriori risultati qualitativi su immagini naturali
Matting video
9.1. Generazione del dataset
9.2. Dettagli di addestramento
9.3. Dettagli quantitativi
9.4. Ulteriori risultati qualitativi
Questa sezione amplia il processo di matting delle immagini, fornendo ulteriori approfondimenti sulla generazione del dataset e confronti completi con i metodi esistenti. Approfondiamo la creazione dei dataset I-HIM50K e M-HIM2K, offriamo analisi quantitative dettagliate e presentiamo ulteriori risultati qualitativi per sottolineare l'efficacia del nostro approccio.
Il dataset I-HIM50K è stato sintetizzato dal dataset HHM50K [50], noto per la sua vasta collezione di matte di immagini umane. Abbiamo impiegato un modello MaskRCNN [14] Resnet-50 FPN 3x, addestrato sul dataset COCO, per filtrare le immagini di singole persone, ottenendo un sottoinsieme di 35.053 immagini. Seguendo la metodologia InstMatt [49], queste immagini sono state compositate su sfondi diversi dal dataset BG20K [29], creando scenari multi-istanza con 2-5 soggetti per immagine. I soggetti sono stati ridimensionati e posizionati per mantenere una scala realistica ed evitare sovrapposizioni eccessive, come indicato da IoU di istanza che non superano il 30%. Questo processo ha prodotto 49.737 immagini, con una media di 2,28 istanze per immagine. Durante l'addestramento, le maschere di guida sono state generate binarizzando i matte alpha e applicando operazioni casuali di dropout, dilatazione ed erosione. Immagini campione da I-HIM50K sono mostrate nella Fig. 10.
\ Il dataset M-HIM2K è stato progettato per testare la robustezza del modello contro qualità variabili delle maschere. Comprende dieci maschere per istanza, generate utilizzando vari modelli MaskRCNN. Maggiori informazioni sui modelli utilizzati per questo processo di generazione sono mostrate nella Tabella 8. Le maschere sono state abbinate alle istanze in base al più alto IoU con i matte alpha ground truth, garantendo una soglia IoU minima del 70%. Le maschere che non soddisfacevano questa soglia sono state generate artificialmente dal ground truth. Questo processo ha prodotto un set completo di 134.240 maschere, con 117.660 per immagini composite e 16.600 per immagini naturali, fornendo un benchmark robusto per la valutazione del masked guided instance matting. Il dataset completo I-HIM50K e M-HIM2K sarà rilasciato dopo l'accettazione di questo lavoro.
\ 
\ 
\
:::info Autori:
(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);
(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);
(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);
(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).
:::
:::info Questo documento è disponibile su arxiv sotto licenza CC by 4.0 Deed (Attribution 4.0 International).
:::
\


