Treepedia 2.0: Applying Deep Learning for Large-scale Quantification of Urban Tree Cover (Cai et al.)
|
Modelos DCNN:
- Segmentação Semântica: PSPNet (65.8M parâmetros). Pré-treinado em Cityscapes, depois em Cityscapes binário, e finalmente em dataset GSV rotulado.
- End-to-End Learning: ResNet-50 (28.1M parâmetros). Pré-treinado em ImageNet, depois em Cityscapes (GVI real), e finalmente em dataset GSV rotulado.
Técnicas: Transfer Learning, Grad-CAM para interpretabilidade.
|
Imagens:
- Google Street View (GSV).
- Resolução: Alta, padronizadas.
Datasets:
- Treino/Validação/Teste: 500 imagens GSV de 5 cidades, rotuladas manualmente.
- Pré-treino: Cityscapes (5000+ imagens), ImageNet.
|
Performance vs. Benchmark (Unsupervised Mean Shift):
- Mean IoU: Benchmark: 44.7% | DCNN Semântica: 61.3%
- Mean Absolute Error (GVI): Benchmark: 10.1% | DCNN Semântica: 7.83% | DCNN End-to-End: 4.67%
- Pearson's Correlation (GVI): Benchmark: 0.708 | DCNN Semântica: 0.83 | DCNN End-to-End: 0.939
Velocidade (10000 imagens):
- Benchmark: 3665s
- DCNN Semântica: 2064s
- DCNN End-to-End: 38.9s
|
Modelos de Deep Learning superam significativamente o benchmark não supervisionado em precisão e eficiência para quantificação de cobertura arbórea urbana em larga escala.
O procedimento de treinamento com pré-treino em datasets abertos e ajuste fino em dados GSV é eficiente em termos de rotulagem e recursos computacionais.
A interpretabilidade via Grad-CAM valida o aprendizado do modelo.
|
Urban Change Detection from Aerial Images Using Convolutional Neural Networks and Transfer Learning (Fyleris et al., 2022)
|
Modelo DCNN:
- DeepLabv3 com backbone ResNet50.
Estratégia de Transfer Learning (M123):
- 1. Pré-treino em ImageNet (M1).
- 2. Treino em dataset "coarse" (M12) gerado automaticamente (OSM).
- 3. Ajuste fino em dataset "fine-tuning" (M123) revisado manualmente.
Técnicas: Normalização de imagens, Focal Loss (para dados desbalanceados).
|
Imagens:
- Digital Raster Orthophoto Map of Lithuania (ORT10LT).
- Resolução: Variável (0.5m/pixel em 2009-2010; 0.25m/pixel em 2012-2013 e 2015-2017).
- Profundidade de cor: Variável (8-bit RGB; 16-bit).
Datasets:
- Labels: Dados OSM (4 classes: casas, florestas, água, outros).
- Coarse: 15.000 imagens, 1024x1024 pixels, rotuladas automaticamente.
- Fine-tuning: 963 imagens, revisadas manualmente.
|
Performance (mIoU):
- M2: 0.40869
- M12: 0.71063
- M3: 0.30296
- M13: 0.63443
- M23: 0.44274
- M123: 0.83142 (Pixel Accuracy: 0.95199)
Estabilidade entre períodos (M123):
|
A estratégia de transfer learning (ImageNet + coarse + fine-tuning) é crucial para alta acurácia na detecção de mudanças urbanas em imagens aéreas de qualidade variável.
A normalização de dados e o uso de Focal Loss são essenciais para lidar com heterogeneidade e desbalanceamento.
|
Deep Learning-Based Detection of Urban Forest Cover Change along with Overall Urban Changes Using Very-High-Resolution Satellite Images (Javed et al., 2023)
|
Dois Modelos DCNN Independentes:
- 1. Geração de Máscara Florestal Binária: DeepLabv3+ (ResNet-50 backbone).
- 2. Geração de Máscara de Mudança Binária: Deeply Supervised Image Fusion Network (DSIFN) (VGG16 backbone).
Processo: Concatenação de três máscaras binárias (floresta pré, floresta pós, mudança geral) para detecção de mudança semântica.
Técnicas: Transfer Learning, Binary Cross-Entropy Loss, Adam Optimizer.
|
Imagens:
- Satélite de Muito Alta Resolução (VHR) bitemporais.
- Resolução: Variável (2.8m, 2.44m, 1.24m).
- Sensores: Kompsat-3, QuickBird-2, WorldView-3.
- Bandas: NIR, vermelho, verde; vermelho, verde, azul.
Datasets:
- Pré-treino: LoveDA (DeepLabv3+), dataset próprio DSIFN.
- Ajuste Fino/Teste: Imagens VHR bitemporais de 3 cidades sul-coreanas, rotuladas manualmente.
|
Máscaras Florestais (DeepLabv3+):
- Site 1: F1: 0.908 (pré), 0.874 (pós); Kappa: 0.855 (pré), 0.813 (pós); IoU: 0.831 (pré), 0.777 (pós); Acc: 0.933 (pré), 0.917 (pós). (Superou Unet, SegNet, NDVI).
Detecção de Mudança (DSIFN):
- Site 1: F1: 0.815, Kappa: 0.815, Acc: 0.950, IoU: 0.737.
Mudança Semântica (Florestal):
- Redução de falsas detecções e ruído sal-e-pimenta.
- Detecção mais eficaz de diminuição florestal do que aumento.
|
Abordagem inovadora para detecção de mudança semântica de cobertura florestal urbana e mudanças urbanas gerais usando imagens VHR bitemporais.
A combinação de redes especializadas e o uso de máscaras florestais pré/pós-mudança reduzem ruído e falsas detecções.
O transfer learning é eficaz para dados VHR.
|