diff --git a/torchtune/models/clip/inference/_transform.py b/torchtune/models/clip/inference/_transform.py
index 42b54c071..61a244663 100644
--- a/torchtune/models/clip/inference/_transform.py
+++ b/torchtune/models/clip/inference/_transform.py
@@ -18,7 +18,6 @@
 from torchtune.modules.transforms.vision_utils.get_inscribed_size import (
     get_inscribed_size,
 )
-from torchtune.modules.transforms.vision_utils.pad_dim_to_size import pad_dim_to_size
 from torchtune.modules.transforms.vision_utils.tile_crop import tile_crop
 
 from torchvision.transforms.v2 import functional as F
@@ -35,7 +34,6 @@ def __init__(
         tile_size: int,
         max_num_tiles: int,
         antialias: bool,
-        pad_max_tiles: bool = False,
     ):
         super().__init__()
         self.resample = resample
@@ -43,7 +41,6 @@ def __init__(
         self.image_std = image_std
         self.tile_size = tile_size
         self.max_num_tiles = max_num_tiles
-        self.pad_tile_size = max_num_tiles if pad_max_tiles else None
         self.antialias = antialias
         self.tile_crop = tile_crop
         self.pad = torch.nn.functional.pad
@@ -121,9 +118,6 @@ def forward(
         # Reshape.
         tiles = self.tile_crop(output, self.tile_size)
 
-        if self.pad_tile_size:
-            tiles = pad_dim_to_size(tiles, size=self.pad_tile_size, dim=0)
-
         # Calculate aspect ratio.
         aspect_ratio = canvas_size // self.tile_size
 
@@ -181,7 +175,6 @@ class CLIPImageTransform:
             If False, it will pick the resolution that minimizes downscaling, including no downscaling at all.
             In this case, the image will only be upscaled if it's size < tile_size. Default False.
         antialias (bool): Whether to apply antialiasing when resizing the image. Default True.
-        pad_max_tiles (bool): If True, the image will be padded to have tiles == max_num_tiles.
     Examples:
         >>> image_transform = CLIPImageTransform(
         ...    image_mean=None,
@@ -212,7 +205,6 @@ def __init__(
         resample: str = "bilinear",
         resize_to_max_canvas: bool = False,
         antialias: bool = True,
-        pad_max_tiles: bool = False,
     ) -> None:
 
         # get_canvas_best_fit
@@ -258,7 +250,6 @@ def __init__(
             tile_size=self.tile_size,
             max_num_tiles=self.max_num_tiles,
             antialias=self.antialias,
-            pad_max_tiles=pad_max_tiles,
         )
 
     def __call__(self, *, image: Image.Image, **kwargs) -> Mapping[str, Any]: