pytorch · NicolasHug · Dec 8, 2021 · Dec 7, 2021 · Dec 7, 2021 · Dec 7, 2021
diff --git a/torchvision/models/optical_flow/raft.py b/torchvision/models/optical_flow/raft.py
@@ -585,7 +585,7 @@ def raft_large(*, pretrained=False, progress=True, **kwargs):
     """
 
     if pretrained:
-        raise ValueError("Pretrained weights aren't available yet")
+        raise ValueError("No checkpoint is available for raft_large")
 
     return _raft(
         # Feature encoder
@@ -631,7 +631,7 @@ def raft_small(*, pretrained=False, progress=True, **kwargs):
     """
 
     if pretrained:
-        raise ValueError("Pretrained weights aren't available yet")
+        raise ValueError("No checkpoint is available for raft_small")
 
     return _raft(
         # Feature encoder

diff --git a/torchvision/prototype/models/__init__.py b/torchvision/prototype/models/__init__.py
@@ -12,6 +12,7 @@
 from .vgg import *
 from .vision_transformer import *
 from . import detection
+from . import optical_flow
 from . import quantization
 from . import segmentation
 from . import video

diff --git a/torchvision/prototype/models/optical_flow/__init__.py b/torchvision/prototype/models/optical_flow/__init__.py
@@ -0,0 +1 @@
+from .raft import RAFT, raft_large, raft_small
diff --git a/torchvision/prototype/models/optical_flow/raft.py b/torchvision/prototype/models/optical_flow/raft.py
@@ -0,0 +1,168 @@
+from typing import Optional
+
+from torch.nn.modules.batchnorm import BatchNorm2d
+from torch.nn.modules.instancenorm import InstanceNorm2d
+from torchvision.models.optical_flow import RAFT
+from torchvision.models.optical_flow.raft import _raft, BottleneckBlock, ResidualBlock
+# from torchvision.prototype.transforms import RaftEval
+
+from .._api import WeightsEnum
+# from .._api import Weights
+from .._utils import handle_legacy_interface
+
+
+__all__ = (
+    "RAFT",
+    "raft_large",
+    "raft_small",
+)
+
+
+class Raft_Large_Weights(WeightsEnum):
+    pass
+    # C_T_V1 = Weights(
+    #     # Chairs + Things
+    #     url="",
+    #     transforms=RaftEval,
+    #     meta={
+    #         "recipe": "",
+    #         "epe": -1234,
+    #     },
+    # )
+
+    # C_T_SKHT_V1 = Weights(
+    #     # Chairs + Things + Sintel fine-tuning, i.e.:
+    #     # Chairs + Things + (Sintel + Kitti + HD1K + Things_clean)
+    #     # Corresponds to the C+T+S+K+H on paper with fine-tuning on Sintel
+    #     url="",
+    #     transforms=RaftEval,
+    #     meta={
+    #         "recipe": "",
+    #         "epe": -1234,
+    #     },
+    # )
+
+    # C_T_SKHT_K_V1 = Weights(
+    #     # Chairs + Things + Sintel fine-tuning + Kitti fine-tuning i.e.:
+    #     # Chairs + Things + (Sintel + Kitti + HD1K + Things_clean) + Kitti
+    #     # Same as CT_SKHT with extra fine-tuning on Kitti
+    #     # Corresponds to the C+T+S+K+H on paper with fine-tuning on Sintel and then on Kitti
+    #     url="",
+    #     transforms=RaftEval,
+    #     meta={
+    #         "recipe": "",
+    #         "epe": -1234,
+    #     },
+    # )
+
+    # default = C_T_V1
+
+
+class Raft_Small_Weights(WeightsEnum):
+    pass
+    # C_T_V1 = Weights(
+    #     url="",  # TODO
+    #     transforms=RaftEval,
+    #     meta={
+    #         "recipe": "",
+    #         "epe": -1234,
+    #     },
+    # )
+    # default = C_T_V1
+
+
+@handle_legacy_interface(weights=("pretrained", None))
+def raft_large(*, weights: Optional[Raft_Large_Weights] = None, progress=True, **kwargs):
+    """RAFT model from
+    `RAFT: Recurrent All Pairs Field Transforms for Optical Flow <https://arxiv.org/abs/2003.12039>`_.
+
+    Args:
+        weights(Raft_Large_weights, optinal): TODO not implemented yet
+        progress (bool): If True, displays a progress bar of the download to stderr
+        kwargs (dict): Parameters that will be passed to the :class:`~torchvision.models.optical_flow.RAFT` class
+            to override any default.
+
+    Returns:
+        nn.Module: The model.
+    """
+
+    if weights is not None:
+        raise ValueError("No checkpoint is available for raft_large")
+
+    weights = Raft_Large_Weights.verify(weights)
+
+    return _raft(
+        # Feature encoder
+        feature_encoder_layers=(64, 64, 96, 128, 256),
+        feature_encoder_block=ResidualBlock,
+        feature_encoder_norm_layer=InstanceNorm2d,
+        # Context encoder
+        context_encoder_layers=(64, 64, 96, 128, 256),
+        context_encoder_block=ResidualBlock,
+        context_encoder_norm_layer=BatchNorm2d,
+        # Correlation block
+        corr_block_num_levels=4,
+        corr_block_radius=4,
+        # Motion encoder
+        motion_encoder_corr_layers=(256, 192),
+        motion_encoder_flow_layers=(128, 64),
+        motion_encoder_out_channels=128,
+        # Recurrent block
+        recurrent_block_hidden_state_size=128,
+        recurrent_block_kernel_size=((1, 5), (5, 1)),
+        recurrent_block_padding=((0, 2), (2, 0)),
+        # Flow head
+        flow_head_hidden_size=256,
+        # Mask predictor
+        use_mask_predictor=True,
+        **kwargs,
+    )
+
+
+@handle_legacy_interface(weights=("pretrained", None))
+def raft_small(*, weights: Optional[Raft_Small_Weights] = None, progress=True, **kwargs):
+    """RAFT "small" model from
+    `RAFT: Recurrent All Pairs Field Transforms for Optical Flow <https://arxiv.org/abs/2003.12039>`_.
+
+    Args:
+        weights(Raft_Small_weights, optinal): TODO not implemented yet
+        progress (bool): If True, displays a progress bar of the download to stderr
+        kwargs (dict): Parameters that will be passed to the :class:`~torchvision.models.optical_flow.RAFT` class
+            to override any default.
+
+    Returns:
+        nn.Module: The model.
+
+    """
+
+    if weights is not None:
+        raise ValueError("No checkpoint is available for raft_small")
+
+    weights = Raft_Small_Weights.verify(weights)
+
+    return _raft(
+        # Feature encoder
+        feature_encoder_layers=(32, 32, 64, 96, 128),
+        feature_encoder_block=BottleneckBlock,
+        feature_encoder_norm_layer=InstanceNorm2d,
+        # Context encoder
+        context_encoder_layers=(32, 32, 64, 96, 160),
+        context_encoder_block=BottleneckBlock,
+        context_encoder_norm_layer=None,
+        # Correlation block
+        corr_block_num_levels=4,
+        corr_block_radius=3,
+        # Motion encoder
+        motion_encoder_corr_layers=(96,),
+        motion_encoder_flow_layers=(64, 32),
+        motion_encoder_out_channels=82,
+        # Recurrent block
+        recurrent_block_hidden_state_size=96,
+        recurrent_block_kernel_size=(3,),
+        recurrent_block_padding=(1,),
+        # Flow head
+        flow_head_hidden_size=128,
+        # Mask predictor
+        use_mask_predictor=False,
+        **kwargs,
+    )
diff --git a/torchvision/prototype/transforms/__init__.py b/torchvision/prototype/transforms/__init__.py
@@ -3,4 +3,4 @@
 
 from ._geometry import Resize, RandomResize, HorizontalFlip, Crop, CenterCrop, RandomCrop
 from ._misc import Identity, Normalize
-from ._presets import CocoEval, ImageNetEval, VocEval, Kinect400Eval
+from ._presets import CocoEval, ImageNetEval, VocEval, Kinect400Eval, RaftEval
diff --git a/torchvision/prototype/transforms/_presets.py b/torchvision/prototype/transforms/_presets.py
@@ -97,3 +97,38 @@ def forward(self, img: Tensor, target: Optional[Tensor] = None) -> Tuple[Tensor,
                 target = F.pil_to_tensor(target)
             target = target.squeeze(0).to(torch.int64)
         return img, target
+
+
+class RaftEval(nn.Module):
+    def forward(
+        self, img1: Tensor, img2: Tensor, flow: Optional[Tensor], valid_flow_mask: Optional[Tensor]
+    ) -> Tuple[Tensor, Tensor, Optional[Tensor], Optional[Tensor]]:
+
+        img1, img2, flow, valid_flow_mask = self._pil_or_numpy_to_tensor(img1, img2, flow, valid_flow_mask)
+
+        img1 = F.convert_image_dtype(img1, torch.float32)
+        img2 = F.convert_image_dtype(img2, torch.float32)
+
+        # map [0, 1] into [-1, 1]
+        img1 = F.normalize(img1, mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5])
+        img2 = F.normalize(img2, mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5])
+
+        img1 = img1.contiguous()
+        img2 = img2.contiguous()
+
+        return img1, img2, flow, valid_flow_mask
+
+    def _pil_or_numpy_to_tensor(
+        self, img1: Tensor, img2: Tensor, flow: Optional[Tensor], valid_flow_mask: Optional[Tensor]
+    ) -> Tuple[Tensor, Tensor, Optional[Tensor], Optional[Tensor]]:
+        if not isinstance(img1, Tensor):
+            img1 = F.pil_to_tensor(img1)
+        if not isinstance(img2, Tensor):
+            img2 = F.pil_to_tensor(img2)
+
+        if flow is not None and not isinstance(flow, Tensor):
+            flow = torch.from_numpy(flow)
+        if valid_flow_mask is not None and not isinstance(valid_flow_mask, Tensor):
+            valid_flow_mask = torch.from_numpy(valid_flow_mask)
+
+        return img1, img2, flow, valid_flow_mask