Spaces:

BoyuanJiang
/

FitDiT

Running on Zero

App Files Files Community

BoyuanJiang commited on 10 days ago

Commit

57b4b9a

1 Parent(s): 08d8dcb

update

Browse files

Files changed (1) hide show

app.py +85 -87

app.py CHANGED Viewed

@@ -24,91 +24,95 @@ access_token = os.getenv("HF_TOKEN")
 fitdit_repo = "BoyuanJiang/FitDiT"
 repo_path = snapshot_download(repo_id=fitdit_repo, use_auth_token=access_token)
-@spaces.GPU
-class FitDiTGenerator:
-    def __init__(self, model_root, device="cuda", with_fp16=False):
-        weight_dtype = torch.float16 if with_fp16 else torch.bfloat16
-        transformer_garm = SD3Transformer2DModel_Garm.from_pretrained(os.path.join(model_root, "transformer_garm"), torch_dtype=weight_dtype)
-        transformer_vton = SD3Transformer2DModel_Vton.from_pretrained(os.path.join(model_root, "transformer_vton"), torch_dtype=weight_dtype)
-        pose_guider =  PoseGuider(conditioning_embedding_channels=1536, conditioning_channels=3, block_out_channels=(32, 64, 256, 512))
-        pose_guider.load_state_dict(torch.load(os.path.join(model_root, "pose_guider", "diffusion_pytorch_model.bin")))
-        image_encoder_large = CLIPVisionModelWithProjection.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=weight_dtype)
-        image_encoder_bigG = CLIPVisionModelWithProjection.from_pretrained("laion/CLIP-ViT-bigG-14-laion2B-39B-b160k", torch_dtype=weight_dtype)
-        pose_guider.to(device=device, dtype=weight_dtype)
-        image_encoder_large.to(device=device)
-        image_encoder_bigG.to(device=device)
-        self.pipeline = StableDiffusion3TryOnPipeline.from_pretrained(model_root, torch_dtype=weight_dtype, transformer_garm=transformer_garm, transformer_vton=transformer_vton, pose_guider=pose_guider, image_encoder_large=image_encoder_large, image_encoder_bigG=image_encoder_bigG)
-        self.pipeline.to(device)
-        self.dwprocessor = DWposeDetector(model_root=model_root, device=device)
-        self.parsing_model = Parsing(model_root=model_root, device=device)
-    def generate_mask(self, vton_img, category, offset_top, offset_bottom, offset_left, offset_right):
-        with torch.inference_mode():
-            vton_img = Image.open(vton_img)
-            vton_img_det = resize_image(vton_img)
-            pose_image, keypoints, _, candidate = self.dwprocessor(np.array(vton_img_det)[:,:,::-1])
-            candidate[candidate<0]=0
-            candidate = candidate[0]
-            candidate[:, 0]*=vton_img_det.width
-            candidate[:, 1]*=vton_img_det.height
-            pose_image = pose_image[:,:,::-1] #rgb
-            pose_image = Image.fromarray(pose_image)
-            model_parse, _ = self.parsing_model(vton_img_det)
-            mask, mask_gray = get_mask_location(category, model_parse, \
-                                        candidate, model_parse.width, model_parse.height, \
-                                        offset_top, offset_bottom, offset_left, offset_right)
-            mask = mask.resize(vton_img.size)
-            mask_gray = mask_gray.resize(vton_img.size)
-            mask = mask.convert("L")
-            mask_gray = mask_gray.convert("L")
-            masked_vton_img = Image.composite(mask_gray, vton_img, mask)
-            im = {}
-            im['background'] = np.array(vton_img.convert("RGBA"))
-            im['layers'] = [np.concatenate((np.array(mask_gray.convert("RGB")), np.array(mask)[:,:,np.newaxis]),axis=2)]
-            im['composite'] = np.array(masked_vton_img.convert("RGBA"))
-            return im, pose_image
-    def process(self, vton_img, garm_img, pre_mask, pose_image, n_steps, image_scale, seed, num_images_per_prompt, resolution):
-        assert resolution in ["768x1024", "1152x1536", "1536x2048"]
-        new_width, new_height = resolution.split("x")
-        new_width = int(new_width)
-        new_height = int(new_height)
-        with torch.inference_mode():
-            garm_img = Image.open(garm_img)
-            vton_img = Image.open(vton_img)
-            model_image_size = vton_img.size
-            garm_img, _, _ = pad_and_resize(garm_img, new_width=new_width, new_height=new_height)
-            vton_img, pad_w, pad_h = pad_and_resize(vton_img, new_width=new_width, new_height=new_height)
-            mask = pre_mask["layers"][0][:,:,3]
-            mask = Image.fromarray(mask)
-            mask, _, _ = pad_and_resize(mask, new_width=new_width, new_height=new_height, pad_color=(0,0,0))
-            mask = mask.convert("L")
-            pose_image = Image.fromarray(pose_image)
-            pose_image, _, _ = pad_and_resize(pose_image, new_width=new_width, new_height=new_height, pad_color=(0,0,0))
-            if seed==-1:
-                seed = random.randint(0, 2147483647)
-            res = self.pipeline(
-                height=new_height,
-                width=new_width,
-                guidance_scale=image_scale,
-                num_inference_steps=n_steps,
-                generator=torch.Generator("cpu").manual_seed(seed),
-                cloth_image=garm_img,
-                model_image=vton_img,
-                mask=mask,
-                pose_image=pose_image,
-                num_images_per_prompt=num_images_per_prompt
-            ).images
-            for idx in range(len(res)):
-                res[idx] = unpad_and_resize(res[idx], pad_w, pad_h, model_image_size[0], model_image_size[1])
-            return res
 def pad_and_resize(im, new_width=768, new_height=1024, pad_color=(255, 255, 255), mode=Image.LANCZOS):
@@ -185,8 +189,7 @@ FitDiT is designed for high-fidelity virtual try-on using Diffusion Transformers
 If you like our work, please star <a href="https://github.com/BoyuanJiang/FitDiT" style="color: blue; text-decoration: underline;">our github repository</a>.
 """
-def create_demo(model_path, device, with_fp16):
-    generator = FitDiTGenerator(model_path, device, with_fp16)
     with gr.Blocks(title="FitDiT") as demo:
         gr.Markdown(HEADER)
         with gr.Row():
@@ -294,15 +297,10 @@ def create_demo(model_path, device, with_fp16):
         ips1 = [vton_img, category, offset_top, offset_bottom, offset_left, offset_right]
         ips2 = [vton_img, garm_img, masked_vton_img, pose_image, n_steps, image_scale, seed, num_images_per_prompt, resolution]
-        run_mask_button.click(fn=generator.generate_mask, inputs=ips1, outputs=[masked_vton_img, pose_image])
-        run_button.click(fn=generator.process, inputs=ips2, outputs=[result_gallery])
     return demo
 if __name__ == "__main__":
-    import argparse
-    parser = argparse.ArgumentParser(description="FitDiT")
-    parser.add_argument("--device", type=str, default="cuda:0", help="Device to use")
-    parser.add_argument("--fp16", action="store_true", help="Load model with fp16, default is bf16")
-    args = parser.parse_args()
-    demo = create_demo(repo_path, args.device, args.fp16)
     demo.launch()

 fitdit_repo = "BoyuanJiang/FitDiT"
 repo_path = snapshot_download(repo_id=fitdit_repo, use_auth_token=access_token)
+weight_dtype = torch.bfloat16
+device = "cuda"
+transformer_garm = SD3Transformer2DModel_Garm.from_pretrained(os.path.join(repo_path, "transformer_garm"), torch_dtype=weight_dtype)
+transformer_vton = SD3Transformer2DModel_Vton.from_pretrained(os.path.join(repo_path, "transformer_vton"), torch_dtype=weight_dtype)
+pose_guider =  PoseGuider(conditioning_embedding_channels=1536, conditioning_channels=3, block_out_channels=(32, 64, 256, 512))
+pose_guider.load_state_dict(torch.load(os.path.join(repo_path, "pose_guider", "diffusion_pytorch_model.bin")))
+image_encoder_large = CLIPVisionModelWithProjection.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=weight_dtype)
+image_encoder_bigG = CLIPVisionModelWithProjection.from_pretrained("laion/CLIP-ViT-bigG-14-laion2B-39B-b160k", torch_dtype=weight_dtype)
+pose_guider.to(device=device, dtype=weight_dtype)
+image_encoder_large.to(device=device)
+image_encoder_bigG.to(device=device)
+pipeline = StableDiffusion3TryOnPipeline.from_pretrained(repo_path, torch_dtype=weight_dtype, \
+            transformer_garm=transformer_garm, transformer_vton=transformer_vton, pose_guider=pose_guider, \
+            image_encoder_large=image_encoder_large, image_encoder_bigG=image_encoder_bigG)
+pipeline.to(device)
+dwprocessor = DWposeDetector(model_root=repo_path, device=device)
+parsing_model = Parsing(model_root=repo_path, device=device)
+def generate_mask(vton_img, category, offset_top, offset_bottom, offset_left, offset_right):
+    with torch.inference_mode():
+        vton_img = Image.open(vton_img)
+        vton_img_det = resize_image(vton_img)
+        pose_image, keypoints, _, candidate = dwprocessor(np.array(vton_img_det)[:,:,::-1])
+        candidate[candidate<0]=0
+        candidate = candidate[0]
+        candidate[:, 0]*=vton_img_det.width
+        candidate[:, 1]*=vton_img_det.height
+        pose_image = pose_image[:,:,::-1] #rgb
+        pose_image = Image.fromarray(pose_image)
+        model_parse, _ = parsing_model(vton_img_det)
+        mask, mask_gray = get_mask_location(category, model_parse, \
+                                    candidate, model_parse.width, model_parse.height, \
+                                    offset_top, offset_bottom, offset_left, offset_right)
+        mask = mask.resize(vton_img.size)
+        mask_gray = mask_gray.resize(vton_img.size)
+        mask = mask.convert("L")
+        mask_gray = mask_gray.convert("L")
+        masked_vton_img = Image.composite(mask_gray, vton_img, mask)
+        im = {}
+        im['background'] = np.array(vton_img.convert("RGBA"))
+        im['layers'] = [np.concatenate((np.array(mask_gray.convert("RGB")), np.array(mask)[:,:,np.newaxis]),axis=2)]
+        im['composite'] = np.array(masked_vton_img.convert("RGBA"))
+        return im, pose_image
+@spaces.GPU
+def process(vton_img, garm_img, pre_mask, pose_image, n_steps, image_scale, seed, num_images_per_prompt, resolution):
+    assert resolution in ["768x1024", "1152x1536", "1536x2048"]
+    new_width, new_height = resolution.split("x")
+    new_width = int(new_width)
+    new_height = int(new_height)
+    with torch.inference_mode():
+        garm_img = Image.open(garm_img)
+        vton_img = Image.open(vton_img)
+        model_image_size = vton_img.size
+        garm_img, _, _ = pad_and_resize(garm_img, new_width=new_width, new_height=new_height)
+        vton_img, pad_w, pad_h = pad_and_resize(vton_img, new_width=new_width, new_height=new_height)
+        mask = pre_mask["layers"][0][:,:,3]
+        mask = Image.fromarray(mask)
+        mask, _, _ = pad_and_resize(mask, new_width=new_width, new_height=new_height, pad_color=(0,0,0))
+        mask = mask.convert("L")
+        pose_image = Image.fromarray(pose_image)
+        pose_image, _, _ = pad_and_resize(pose_image, new_width=new_width, new_height=new_height, pad_color=(0,0,0))
+        if seed==-1:
+            seed = random.randint(0, 2147483647)
+        res = pipeline(
+            height=new_height,
+            width=new_width,
+            guidance_scale=image_scale,
+            num_inference_steps=n_steps,
+            generator=torch.Generator("cpu").manual_seed(seed),
+            cloth_image=garm_img,
+            model_image=vton_img,
+            mask=mask,
+            pose_image=pose_image,
+            num_images_per_prompt=num_images_per_prompt
+        ).images
+        for idx in range(len(res)):
+            res[idx] = unpad_and_resize(res[idx], pad_w, pad_h, model_image_size[0], model_image_size[1])
+        return res
 def pad_and_resize(im, new_width=768, new_height=1024, pad_color=(255, 255, 255), mode=Image.LANCZOS):
 If you like our work, please star <a href="https://github.com/BoyuanJiang/FitDiT" style="color: blue; text-decoration: underline;">our github repository</a>.
 """
+def create_demo():
     with gr.Blocks(title="FitDiT") as demo:
         gr.Markdown(HEADER)
         with gr.Row():
         ips1 = [vton_img, category, offset_top, offset_bottom, offset_left, offset_right]
         ips2 = [vton_img, garm_img, masked_vton_img, pose_image, n_steps, image_scale, seed, num_images_per_prompt, resolution]
+        run_mask_button.click(fn=generate_mask, inputs=ips1, outputs=[masked_vton_img, pose_image])
+        run_button.click(fn=process, inputs=ips2, outputs=[result_gallery])
     return demo
 if __name__ == "__main__":
+    demo = create_demo()
     demo.launch()