NVIDIA Cosmos on AGX Orin issue

Hi,

Hardware : Jetson AGX Orin Dev kit 64GB
Jetpack 6.2

I am working on NVIDIA Cosmos on jetson ai lab, I am getting below issue:

root@ubuntu:/opt/Cosmos# PYTHONPATH=$(pwd) python3 cosmos1/models/diffusion/inference/text2world.py
–checkpoint_dir checkpoints
–diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World
–prompt “$PROMPT”
–video_save_name Cosmos-1.0-Diffusion-7B-Text2World_memory_efficient
–offload_tokenizer
–offload_diffusion_transformer
–offload_text_encoder_model
–offload_prompt_upsampler
–offload_guardrail_models
/usr/local/lib/python3.10/dist-packages/transformers/utils/hub.py:128: FutureWarning: Using TRANSFORMERS_CACHE is deprecated and will be removed in v5 of Transformers. Use HF_HOME instead.
warnings.warn(
The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling transformers.utils.move_cache().
0it [00:00, ?it/s]
[02-24 11:57:15|INFO|cosmos1/utils/misc.py:106:set_random_seed] Using random seed 1.
[02-24 11:57:16|INFO|cosmos1/models/diffusion/inference/world_generation_pipeline.py:314:generate] Run with prompt: A sleek, humanoid robot stands in a vast warehouse filled with neatly stacked cardboard boxes on industrial shelves. The robot’s metallic body gleams under the bright, even lighting, highlighting its futuristic design and intricate joints. A glowing blue light emanates from its chest, adding a touch of advanced technology. The background is dominated by rows of boxes, suggesting a highly organized storage system. The floor is lined with wooden pallets, enhancing the industrial setting. The camera remains static, capturing the robot’s poised stance amidst the orderly environment, with a shallow depth of field that keeps the focus on the robot while subtly blurring the background for a cinematic effect.
[02-24 11:57:16|INFO|cosmos1/models/diffusion/inference/world_generation_pipeline.py:315:generate] Run with negative prompt: The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality.
[02-24 11:57:16|INFO|cosmos1/models/diffusion/inference/world_generation_pipeline.py:316:generate] Run with prompt upsampler: True
[02-24 11:57:16|INFO|cosmos1/models/diffusion/inference/world_generation_pipeline.py:318:generate] Run guardrail on prompt
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████| 3/3 [00:07<00:00, 2.64s/it]
[02-24 11:57:54|INFO|cosmos1/models/diffusion/inference/world_generation_pipeline.py:323:generate] Pass guardrail on prompt
[02-24 11:57:54|INFO|cosmos1/models/diffusion/inference/world_generation_pipeline.py:329:generate] Run prompt upsampler on prompt
/usr/lib/python3.10/contextlib.py:103: FutureWarning: torch.backends.cuda.sdp_kernel() is deprecated. In the future, this context manager will be removed. Please see torch.nn.attention.sdpa_kernel() for the new context manager, with updated signature.
self.gen = func(*args, **kwds)
[02-24 12:01:34|INFO|cosmos1/models/diffusion/inference/world_generation_pipeline.py:172:_run_prompt_upsampler_on_prompt] Upsampled prompt: In a sprawling, meticulously organized warehouse, a sleek humanoid robot stands poised, its metallic body gleaming under the bright, even glow of industrial lighting. The robot’s intricate joints and futuristic design are accentuated by a soft, ambient blue light emanating from its chest, hinting at advanced technological capabilities. Surrounding it, towering shelves brim with neatly stacked cardboard boxes, each labeled with precision, creating a sense of order and efficiency. The floor, adorned with wooden pallets, enhances the industrial aesthetic, while the camera maintains a static position, capturing the robot’s commanding presence against the backdrop of organized chaos. The shallow depth of field artfully blurs the rows of boxes, drawing the viewer’s gaze to the robot’s poised stance, embodying a blend of human-like form and cutting-edge technology in this cinematic tableau of innovation.
[02-24 12:01:36|INFO|cosmos1/models/diffusion/inference/world_generation_pipeline.py:331:generate] Run guardrail on upsampled prompt
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████| 3/3 [00:08<00:00, 2.67s/it]
[02-24 12:02:10|INFO|cosmos1/models/diffusion/inference/world_generation_pipeline.py:336:generate] Pass guardrail on upsampled prompt
[02-24 12:02:10|INFO|cosmos1/models/diffusion/inference/world_generation_pipeline.py:342:generate] Run text embedding on prompt
spiece.model: 100%|██████████████████████████████████████████████████████████████████████████████████| 792k/792k [00:00<00:00, 1.24MB/s]
tokenizer.json: 100%|██████████████████████████████████████████████████████████████████████████████| 1.39M/1.39M [00:00<00:00, 1.63MB/s]
config.json: 100%|█████████████████████████████████████████████████████████████████████████████████| 1.20k/1.20k [00:00<00:00, 3.49MB/s]
/usr/local/lib/python3.10/dist-packages/transformers/tokenization_utils_base.py:1617: FutureWarning: clean_up_tokenization_spaces was not set. It will be set to True by default. This behavior will be deprecated in transformers v4.45, and will be then set to False by default. For more details check this issue: [BUG] GPT-2 tokenizer is NOT invertible · Issue #31884 · huggingface/transformers · GitHub
warnings.warn(
pytorch_model.bin: 100%|███████████████████████████████████████████████████████████████████████████| 45.2G/45.2G [37:45<00:00, 20.0MB/s]
[02-24 12:41:19|INFO|cosmos1/models/diffusion/inference/world_generation_pipeline.py:350:generate] Finish text embedding on prompt
[02-24 12:41:19|INFO|cosmos1/models/diffusion/inference/world_generation_pipeline.py:353:generate] Run generation
/usr/local/lib/python3.10/dist-packages/torch/serialization.py:1434: UserWarning: ‘torch.load’ received a zip file that looks like a TorchScript archive dispatching to ‘torch.jit.load’ (call ‘torch.jit.load’ directly to silence this warning)
warnings.warn(
Traceback (most recent call last):
File “/opt/Cosmos/cosmos1/models/diffusion/inference/text2world.py”, line 160, in
demo(args)
File “/opt/Cosmos/cosmos1/models/diffusion/inference/text2world.py”, line 127, in demo
generated_output = pipeline.generate(current_prompt, cfg.negative_prompt, cfg.word_limit_to_skip_upsampler)
File “/opt/Cosmos/cosmos1/models/diffusion/inference/world_generation_pipeline.py”, line 354, in generate
video = self._run_model_with_offload(
File “/opt/Cosmos/cosmos1/models/diffusion/inference/world_generation_pipeline.py”, line 272, in _run_model_with_offload
self._load_tokenizer()
File “/opt/Cosmos/cosmos1/models/diffusion/inference/world_generation_pipeline.py”, line 148, in _load_tokenizer
load_tokenizer_model(self.model, f"{self.checkpoint_dir}/Cosmos-1.0-Tokenizer-CV8x8x8")
File “/opt/Cosmos/cosmos1/models/diffusion/inference/inference_utils.py”, line 303, in load_tokenizer_model
model.set_up_tokenizer(tokenizer_dir)
File “/opt/Cosmos/cosmos1/models/diffusion/model/model_t2w.py”, line 94, in set_up_tokenizer
self.tokenizer.load_weights(tokenizer_dir)
File “/opt/Cosmos/cosmos1/models/diffusion/module/pretrained_vae.py”, line 605, in load_weights
self.video_vae.load_decoder(vae_dir)
File “/opt/Cosmos/cosmos1/models/diffusion/module/pretrained_vae.py”, line 209, in load_decoder
self.decoder = torch.load(os.path.join(vae_dir, “decoder.jit”), weights_only=True)
File “/usr/local/lib/python3.10/dist-packages/torch/serialization.py”, line 1441, in load
raise RuntimeError(
RuntimeError: Cannot use weights_only=True with TorchScript archives passed to torch.load. In PyTorch 2.6, we changed the default value of the weights_only argument in torch.load from False to True. Re-running torch.load with weights_only set to False will likely succeed, but it can result in arbitrary code execution. Do it only if you got the file from a trusted source.

Please suggest!

Hi,

Have you run the “Download Models” first?
Does it work correctly?

Thanks.

I hope because there was no error after executing that command. attaching the command and log for your reference.

root@ubuntu:/opt/Cosmos# PYTHONPATH=$(pwd) python3 cosmos1/scripts/download_diffusion.py --model_sizes 7B 14B --model_types Text2World Video2World
Downloading nvidia/Cosmos-1.0-Diffusion-7B-Text2World to checkpoints/Cosmos-1.0-Diffusion-7B-Text2World…
Fetching 3 files: 0%| | 0/3 [00:00<?, ?it/s]/usr/local/lib/python3.10/dist-packages/huggingface_hub/file_download.py:834: UserWarning: local_dir_use_symlinks parameter is deprecated and will be ignored. The process to download files to a local folder has been updated and do not rely on symlinks anymore. You only need to pass a destination folder aslocal_dir.
For more details, check out https://huggingface.co/docs/huggingface_hub/main/en/guides/download#download-files-to-local-folder.
warnings.warn(
config.json: 100%|████████████████████████████████████████████████████████████████████████████████████| 69.0/69.0 [00:00<00:00, 224kB/s]
README.md: 100%|███████████████████████████████████████████████████████████████████████████████████| 23.0k/23.0k [00:00<00:00, 29.9MB/s]
model.pt: 100%|████████████████████████████████████████████████████████████████████████████████████| 14.5G/14.5G [05:50<00:00, 41.2MB/s]
Fetching 3 files: 100%|██████████████████████████████████████████████████████████████████████████████████| 3/3 [05:51<00:00, 117.30s/it]
Downloading nvidia/Cosmos-1.0-Diffusion-7B-Video2World to checkpoints/Cosmos-1.0-Diffusion-7B-Video2World…
config.json: 100%|██████████████████████████████████████████████████████████████████████████████████████| 105/105 [00:00<00:00, 248kB/s]
README.md: 100%|███████████████████████████████████████████████████████████████████████████████████| 23.1k/23.1k [00:00<00:00, 39.0MB/s]
model.pt: 100%|████████████████████████████████████████████████████████████████████████████████████| 14.5G/14.5G [06:07<00:00, 39.4MB/s]
Fetching 3 files: 100%|██████████████████████████████████████████████████████████████████████████████████| 3/3 [06:08<00:00, 122.73s/it]
Downloading nvidia/Cosmos-1.0-Diffusion-14B-Text2World to checkpoints/Cosmos-1.0-Diffusion-14B-Text2World…
config.json: 100%|████████████████████████████████████████████████████████████████████████████████████| 70.0/70.0 [00:00<00:00, 196kB/s]
README.md: 100%|███████████████████████████████████████████████████████████████████████████████████| 23.0k/23.0k [00:00<00:00, 43.6MB/s]
model.pt: 100%|████████████████████████████████████████████████████████████████████████████████████| 28.5G/28.5G [17:02<00:00, 27.9MB/s]
Fetching 3 files: 100%|██████████████████████████████████████████████████████████████████████████████████| 3/3 [17:03<00:00, 341.31s/it]
Downloading nvidia/Cosmos-1.0-Diffusion-14B-Video2World to checkpoints/Cosmos-1.0-Diffusion-14B-Video2World…
config.json: 100%|██████████████████████████████████████████████████████████████████████████████████████| 106/106 [00:00<00:00, 312kB/s]
README.md: 100%|███████████████████████████████████████████████████████████████████████████████████| 23.1k/23.1k [00:00<00:00, 25.7MB/s]
model.pt: 100%|████████████████████████████████████████████████████████████████████████████████████| 28.5G/28.5G [12:19<00:00, 38.6MB/s]
Fetching 3 files: 100%|██████████████████████████████████████████████████████████████████████████████████| 3/3 [12:20<00:00, 246.81s/it]
Downloading nvidia/Cosmos-1.0-Guardrail to checkpoints/Cosmos-1.0-Guardrail…
README.md: 100%|███████████████████████████████████████████████████████████████████████████████████| 21.8k/21.8k [00:00<00:00, 34.1MB/s]
.gitattributes: 100%|██████████████████████████████████████████████████████████████████████████████| 2.31k/2.31k [00:00<00:00, 6.59MB/s]
(…)0d30a7faffd5631f68ca99856c40c252b1a5839a: 100%|██████████████████████████████████████████████████████| 154/154 [00:00<00:00, 459kB/s]
(…)1a87b8f7340ada18ca4f047077a9d5b13882acc1: 100%|█████████████████████████████████████████████████| 5.33k/5.33k [00:00<00:00, 11.1MB/s]
(…)5f4117005b41815881fe7f26aee4cbec8c55aa32: 100%|█████████████████████████████████████████████████| 23.9k/23.9k [00:00<00:00, 31.9MB/s]
(…)0ebbbd98f5481437a8021afaf58ee7fb1818d347: 100%|███████████████████████████████████████████████████| 500k/500k [00:00<00:00, 11.0MB/s]
(…)451134b2ddc2e78555d1e857518c54b4bdc2e87d: 100%|█████████████████████████████████████████████████████| 414/414 [00:00<00:00, 1.18MB/s]
(…)-meta-llama–LlamaGuard-7b%2Frefs%2Fmain: 100%|███████████████████████████████████████████████████| 40.0/40.0 [00:00<00:00, 23.5kB/s]
(…)e75756c38e88b19504b139e45c2bb1e925f3863c: 100%|█████████████████████████████████████████████████████| 610/610 [00:00<00:00, 2.70MB/s]
(…)a4722d44e05f82e81ea73c5106%2Fconfig.json: 100%|█████████████████████████████████████████████████████| 610/610 [00:00<00:00, 1.55MB/s]
(…)f82e81ea73c5106%2Fgeneration_config.json: 100%|██████████████████████████████████████████████████████| 154/154 [00:00<00:00, 190kB/s]
(…)a6e931b92caff4c79c5c56282f1e89569a0ae558: 100%|█████████████████████████████████████████████████| 1.84M/1.84M [00:01<00:00, 1.84MB/s]
(…)ea73c5106%2Fmodel.safetensors.index.json: 100%|█████████████████████████████████████████████████| 23.9k/23.9k [00:00<00:00, 23.0MB/s]
(…)82e81ea73c5106%2Fspecial_tokens_map.json: 100%|██████████████████████████████████████████████████████| 414/414 [00:00<00:00, 903kB/s]
tokenizer.model: 100%|███████████████████████████████████████████████████████████████████████████████| 500k/500k [00:00<00:00, 1.29MB/s]
(…)22d44e05f82e81ea73c5106%2Ftokenizer.json: 100%|█████████████████████████████████████████████████| 1.84M/1.84M [00:00<00:00, 2.35MB/s]
(…)5f82e81ea73c5106%2Ftokenizer_config.json: 100%|█████████████████████████████████████████████████| 5.33k/5.33k [00:00<00:00, 9.26MB/s]
(…)c4d110b05e852cead25fcc7426bf251eb3d15aa0: 100%|█████████████████████████████████████████████████████| 781/781 [00:00<00:00, 1.48MB/s]
(…)y-LlamaGuard-Defensive-1.0%2Frefs%2Fmain: 100%|███████████████████████████████████████████████████| 40.0/40.0 [00:00<00:00, 84.7kB/s]
(…)df2288f442c034b2f3%2Fadapter_config.json: 100%|█████████████████████████████████████████████████████| 781/781 [00:00<00:00, 1.98MB/s]
adapter_model.safetensors: 100%|█████████████████████████████████████████████████████████████████████| 162M/162M [00:56<00:00, 2.87MB/s]
blocklist%2Fcustom%2Fbranding: 100%|███████████████████████████████████████████████████████████████| 1.78k/1.78k [00:00<00:00, 4.02MB/s]
blocklist%2Fcustom%2Fgore: 100%|████████████████████████████████████████████████████████████████████████| 557/557 [00:00<00:00, 900kB/s]
blocklist%2Fcustom%2Fnotable: 100%|████████████████████████████████████████████████████████████████| 1.26k/1.26k [00:00<00:00, 3.18MB/s]
(…)847b3c81ebd56dd8d796551943ea4b43b2e6c55c: 100%|███████████████████████████████████████████████████| 162M/162M [00:59<00:00, 2.71MB/s]
blocklist%2Fcustom%2Fviolence: 100%|██████████████████████████████████████████████████████████████████| 40.0/40.0 [00:00<00:00, 102kB/s]
blocklist%2Fexact_match%2Fblocked: 100%|███████████████████████████████████████████████████████████| 16.2k/16.2k [00:00<00:00, 24.9MB/s]
wordnet.zip: 100%|█████████████████████████████████████████████████████████████████████████████████| 10.8M/10.8M [00:01<00:00, 6.34MB/s]
punkt_tab.zip: 100%|███████████████████████████████████████████████████████████████████████████████| 4.26M/4.26M [00:01<00:00, 2.66MB/s]
(…)k_data%2Ftokenizers%2Fpunkt_tab%2FREADME: 100%|█████████████████████████████████████████████████| 8.57k/8.57k [00:00<00:00, 10.4MB/s]
(…)s%2Fpunkt_tab%2Fczech%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████████| 462/462 [00:00<00:00, 1.25MB/s]
(…)s%2Fpunkt_tab%2Fczech%2Fcollocations.tab: 100%|█████████████████████████████████████████████████| 1.39k/1.39k [00:00<00:00, 3.21MB/s]
(…)%2Fpunkt_tab%2Fczech%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 352/352 [00:00<00:00, 874kB/s]
(…)%2Fpunkt_tab%2Fczech%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 684k/684k [00:00<00:00, 1.03MB/s]
(…)%2Fpunkt_tab%2Fdanish%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████| 1.13k/1.13k [00:00<00:00, 2.74MB/s]
(…)%2Fpunkt_tab%2Fdanish%2Fcollocations.tab: 100%|█████████████████████████████████████████████████| 1.69k/1.69k [00:00<00:00, 4.14MB/s]
(…)2Fpunkt_tab%2Fdanish%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 415/415 [00:00<00:00, 711kB/s]
(…)2Fpunkt_tab%2Fdanish%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 744k/744k [00:00<00:00, 1.05MB/s]
(…)s%2Fpunkt_tab%2Fdutch%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████████| 434/434 [00:00<00:00, 1.11MB/s]
(…)s%2Fpunkt_tab%2Fdutch%2Fcollocations.tab: 100%|█████████████████████████████████████████████████████| 623/623 [00:00<00:00, 1.46MB/s]
(…)%2Fpunkt_tab%2Fdutch%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 310/310 [00:00<00:00, 699kB/s]
(…)%2Fpunkt_tab%2Fdutch%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 428k/428k [00:00<00:00, 1.28MB/s]
(…)2Fpunkt_tab%2Fenglish%2Fabbrev_types.txt: 100%|██████████████████████████████████████████████████████| 619/619 [00:00<00:00, 323kB/s]
(…)2Fpunkt_tab%2Fenglish%2Fcollocations.tab: 100%|█████████████████████████████████████████████████████| 594/594 [00:00<00:00, 1.60MB/s]
(…)Fpunkt_tab%2Fenglish%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 236k/236k [00:00<00:00, 2.25MB/s]
(…)Fpunkt_tab%2Fenglish%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 241/241 [00:00<00:00, 394kB/s]
(…)Fpunkt_tab%2Festonian%2Fabbrev_types.txt: 100%|██████████████████████████████████████████████████████| 224/224 [00:00<00:00, 639kB/s]
(…)Fpunkt_tab%2Festonian%2Fcollocations.tab: 100%|█████████████████████████████████████████████████| 1.82k/1.82k [00:00<00:00, 4.71MB/s]
(…)punkt_tab%2Festonian%2Fsent_starters.txt: 100%|█████████████████████████████████████████████████████| 679/679 [00:00<00:00, 1.70MB/s]
(…)punkt_tab%2Festonian%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 937k/937k [00:00<00:00, 1.19MB/s]
(…)2Fpunkt_tab%2Ffinnish%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████████| 484/484 [00:00<00:00, 1.15MB/s]
(…)2Fpunkt_tab%2Ffinnish%2Fcollocations.tab: 100%|█████████████████████████████████████████████████| 3.05k/3.05k [00:00<00:00, 7.34MB/s]
(…)Fpunkt_tab%2Ffinnish%2Fsent_starters.txt: 100%|█████████████████████████████████████████████████████| 810/810 [00:00<00:00, 1.18MB/s]
(…)Fpunkt_tab%2Ffinnish%2Fortho_context.tab: 100%|█████████████████████████████████████████████████| 1.19M/1.19M [00:00<00:00, 1.24MB/s]
(…)%2Fpunkt_tab%2Ffrench%2Fabbrev_types.txt: 100%|██████████████████████████████████████████████████████| 245/245 [00:00<00:00, 630kB/s]
(…)%2Fpunkt_tab%2Ffrench%2Fcollocations.tab: 100%|██████████████████████████████████████████████████████| 334/334 [00:00<00:00, 749kB/s]
(…)2Fpunkt_tab%2Ffrench%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 334k/334k [00:00<00:00, 1.40MB/s]
(…)2Fpunkt_tab%2Ffrench%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 233/233 [00:00<00:00, 619kB/s]
(…)%2Fpunkt_tab%2Fgerman%2Fabbrev_types.txt: 100%|██████████████████████████████████████████████████████| 246/246 [00:00<00:00, 650kB/s]
(…)%2Fpunkt_tab%2Fgerman%2Fcollocations.tab: 100%|█████████████████████████████████████████████████████| 527/527 [00:00<00:00, 1.32MB/s]
(…)2Fpunkt_tab%2Fgerman%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 944k/944k [00:00<00:00, 1.90MB/s]
(…)2Fpunkt_tab%2Fgerman%2Fsent_starters.txt: 100%|█████████████████████████████████████████████████████| 762/762 [00:00<00:00, 2.01MB/s]
(…)s%2Fpunkt_tab%2Fgreek%2Fcollocations.tab: 100%|██████████████████████████████████████████████████████| 118/118 [00:00<00:00, 311kB/s]
(…)s%2Fpunkt_tab%2Fgreek%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████████| 570/570 [00:00<00:00, 1.73MB/s]
(…)%2Fpunkt_tab%2Fgreek%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 567/567 [00:00<00:00, 886kB/s]
(…)2Fpunkt_tab%2Fitalian%2Fabbrev_types.txt: 100%|██████████████████████████████████████████████████████| 534/534 [00:00<00:00, 177kB/s]
(…)%2Fpunkt_tab%2Fgreek%2Fortho_context.tab: 100%|████████████████████████████████████████████████████| 633k/633k [00:01<00:00, 580kB/s]
(…)2Fpunkt_tab%2Fitalian%2Fcollocations.tab: 100%|████████████████████████████████████████████████████| 53.0/53.0 [00:00<00:00, 125kB/s]
(…)Fpunkt_tab%2Fitalian%2Fortho_context.tab: 100%|████████████████████████████████████████████████████| 370k/370k [00:00<00:00, 636kB/s]
(…)Fpunkt_tab%2Fitalian%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 208/208 [00:00<00:00, 547kB/s]
(…)punkt_tab%2Fnorwegian%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████████| 496/496 [00:00<00:00, 1.26MB/s]
(…)punkt_tab%2Fnorwegian%2Fcollocations.tab: 100%|█████████████████████████████████████████████████████| 869/869 [00:00<00:00, 2.39MB/s]
(…)unkt_tab%2Fnorwegian%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 378/378 [00:00<00:00, 993kB/s]
(…)%2Fpunkt_tab%2Fpolish%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████████| 973/973 [00:00<00:00, 2.03MB/s]
(…)unkt_tab%2Fnorwegian%2Fortho_context.tab: 100%|████████████████████████████████████████████████████| 734k/734k [00:00<00:00, 957kB/s]
(…)%2Fpunkt_tab%2Fpolish%2Fcollocations.tab: 100%|█████████████████████████████████████████████████| 1.10k/1.10k [00:00<00:00, 2.74MB/s]
(…)2Fpunkt_tab%2Fpolish%2Fsent_starters.txt: 100%|█████████████████████████████████████████████████████| 518/518 [00:00<00:00, 1.30MB/s]
(…)2Fpunkt_tab%2Fpolish%2Fortho_context.tab: 100%|█████████████████████████████████████████████████| 1.07M/1.07M [00:00<00:00, 1.55MB/s]
(…)unkt_tab%2Fportuguese%2Fabbrev_types.txt: 100%|██████████████████████████████████████████████████████| 301/301 [00:00<00:00, 410kB/s]
(…)unkt_tab%2Fportuguese%2Fcollocations.tab: 100%|████████████████████████████████████████████████████| 64.0/64.0 [00:00<00:00, 107kB/s]
(…)nkt_tab%2Fportuguese%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 363k/363k [00:00<00:00, 1.12MB/s]
(…)nkt_tab%2Fportuguese%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 209/209 [00:00<00:00, 638kB/s]
(…)Fpunkt_tab%2Frussian%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 10.0/10.0 [00:00<00:00, 26.0kB/s]
(…)2Fpunkt_tab%2Frussian%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████| 15.4k/15.4k [00:00<00:00, 3.08MB/s]
(…)2Fpunkt_tab%2Fslovene%2Fabbrev_types.txt: 100%|██████████████████████████████████████████████████████| 280/280 [00:00<00:00, 650kB/s]
(…)2Fpunkt_tab%2Fslovene%2Fcollocations.tab: 100%|█████████████████████████████████████████████████| 1.13k/1.13k [00:00<00:00, 2.78MB/s]
(…)Fpunkt_tab%2Fslovene%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 445k/445k [00:00<00:00, 1.45MB/s]
(…)Fpunkt_tab%2Fslovene%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 358/358 [00:00<00:00, 990kB/s]
(…)2Fpunkt_tab%2Fspanish%2Fabbrev_types.txt: 100%|██████████████████████████████████████████████████████| 234/234 [00:00<00:00, 575kB/s]
(…)2Fpunkt_tab%2Fspanish%2Fcollocations.tab: 100%|████████████████████████████████████████████████████| 74.0/74.0 [00:00<00:00, 181kB/s]
(…)Fpunkt_tab%2Fspanish%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 338k/338k [00:00<00:00, 1.33MB/s]
(…)Fpunkt_tab%2Fspanish%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 289/289 [00:00<00:00, 667kB/s]
(…)2Fpunkt_tab%2Fswedish%2Fabbrev_types.txt: 100%|██████████████████████████████████████████████████████| 208/208 [00:00<00:00, 590kB/s]
(…)2Fpunkt_tab%2Fswedish%2Fcollocations.tab: 100%|██████████████████████████████████████████████████████| 136/136 [00:00<00:00, 318kB/s]
(…)Fpunkt_tab%2Fswedish%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 295/295 [00:00<00:00, 730kB/s]
(…)Fpunkt_tab%2Fswedish%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 617k/617k [00:00<00:00, 1.31MB/s]
(…)2Fpunkt_tab%2Fturkish%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████████| 424/424 [00:00<00:00, 1.08MB/s]
(…)2Fpunkt_tab%2Fturkish%2Fcollocations.tab: 100%|██████████████████████████████████████████████████████| 273/273 [00:00<00:00, 667kB/s]
(…)Fpunkt_tab%2Fturkish%2Fsent_starters.txt: 100%|█████████████████████████████████████████████████████| 613/613 [00:00<00:00, 1.44MB/s]
(…)Fpunkt_tab%2Fturkish%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 643k/643k [00:00<00:00, 1.51MB/s]
blocklist%2Fwhitelist%2Ffuzzy_blocked: 100%|█████████████████████████████████████████████████████████| 5.00/5.00 [00:00<00:00, 12.6kB/s]
config.json: 100%|████████████████████████████████████████████████████████████████████████████████████| 45.0/45.0 [00:00<00:00, 110kB/s]
(…)051261b5a784a2e7e5f93de1f86d170d69a9efd9: 100%|█████████████████████████████████████████████████████| 368/368 [00:00<00:00, 1.20MB/s]
(…)e288752391797c4bb1a284aa18c9a0b23fcaf8ec: 100%|████████████████████████████████████████████████████| 798k/798k [00:01<00:00, 730kB/s]
(…)6555f2261d409dea394d6b6973129a53b8725803: 100%|██████████████████████████████████████████████████████| 409/409 [00:00<00:00, 563kB/s]
(…)6d6fd0bd6cc263099dc98e4fa383f90c9baa3521: 100%|██████████████████████████████████████████████████| 2.40M/2.40M [00:02<00:00, 809kB/s]
(…)70741c5c1f6d21423ebf51ee77ef2fce868c33f2: 100%|██████████████████████████████████████████████████████| 711/711 [00:00<00:00, 722kB/s]
(…)a513b447f6b05f640f9980d25f4d8a5cff6cd25d: 100%|█████████████████████████████████████████████████████| 576/576 [00:00<00:00, 2.52MB/s]
Resnet50_Final.pth: 100%|████████████████████████████████████████████████████████████████████████████| 109M/109M [00:09<00:00, 11.4MB/s]
(…)-siglip-so400m-patch14-384%2Frefs%2Fmain: 100%|███████████████████████████████████████████████████| 40.0/40.0 [00:00<00:00, 95.4kB/s]
(…)d1a03a25b10dba0329ab15c2a3%2Fconfig.json: 100%|█████████████████████████████████████████████████████| 576/576 [00:00<00:00, 1.37MB/s]
(…)e980737cf3e51424b396b3809463c4d9b06c7fcf: 100%|█████████████████████████████████████████████████| 3.59G/3.59G [11:22<00:00, 5.26MB/s]
(…)a0329ab15c2a3%2Fpreprocessor_config.json: 100%|██████████████████████████████████████████████████████| 368/368 [00:00<00:00, 655kB/s]
(…)ba0329ab15c2a3%2Fspecial_tokens_map.json: 100%|█████████████████████████████████████████████████████| 409/409 [00:00<00:00, 1.08MB/s]
spiece.model: 100%|██████████████████████████████████████████████████████████████████████████████████| 798k/798k [00:00<00:00, 30.6MB/s]
(…)03a25b10dba0329ab15c2a3%2Ftokenizer.json: 100%|█████████████████████████████████████████████████| 2.40M/2.40M [00:01<00:00, 2.08MB/s]
(…)0dba0329ab15c2a3%2Ftokenizer_config.json: 100%|█████████████████████████████████████████████████████| 711/711 [00:00<00:00, 1.58MB/s]
safety_filter.pt: 100%|████████████████████████████████████████████████████████████████████████████| 5.81M/5.81M [00:00<00:00, 12.2MB/s]
(…)44d5d57ffa71c56f720c94bc5d240ef4d6e1d94a: 100%|█████████████████████████████████████████████████| 3.51G/3.51G [10:49<00:00, 5.40MB/s]
model.safetensors: 100%|███████████████████████████████████████████████████████████████████████████| 3.51G/3.51G [11:02<00:00, 5.30MB/s]
(…)6d6dcdaa8b36ab5ecf73dcfd1e8da3b5a95261a8: 100%|█████████████████████████████████████████████████| 4.94G/4.94G [14:31<00:00, 5.67MB/s]
model-00003-of-00003.safetensors: 100%|████████████████████████████████████████████████████████████| 3.59G/3.59G [15:22<00:00, 3.89MB/s]
(…)d13a007efcd0e0447290da6d92f787c3295b0ad8: 100%|█████████████████████████████████████████████████| 4.95G/4.95G [16:00<00:00, 5.15MB/s]
model-00001-of-00003.safetensors: 100%|████████████████████████████████████████████████████████████| 4.94G/4.94G [16:10<00:00, 5.09MB/s]
model-00002-of-00003.safetensors: 100%|████████████████████████████████████████████████████████████| 4.95G/4.95G [16:50<00:00, 4.90MB/s]
Fetching 146 files: 100%|█████████████████████████████████████████████████████████████████████████████| 146/146 [16:53<00:00, 6.94s/it]
Downloading nvidia/Cosmos-1.0-Tokenizer-CV8x8x8 to checkpoints/Cosmos-1.0-Tokenizer-CV8x8x8… | 4.12G/4.94G [15:21<03:23, 4.03MB/s]
config.json: 100%|████████████████████████████████████████████████████████████████████████████████████| 52.0/52.0 [00:00<00:00, 146kB/s]
mean_std.pt: 100%|█████████████████████████████████████████████████████████████████████████████████| 4.29k/4.29k [00:00<00:00, 5.12MB/s]
.gitattributes: 100%|██████████████████████████████████████████████████████████████████████████████| 1.67k/1.67k [00:00<00:00, 4.43MB/s]
README.md: 100%|███████████████████████████████████████████████████████████████████████████████████| 30.3k/30.3k [00:00<00:00, 36.7MB/s]
model_config.yaml: 100%|██████████████████████████████████████████████████████████████████████████████| 92.0/92.0 [00:00<00:00, 304kB/s]
encoder.jit: 100%|█████████████████████████████████████████████████████████████████████████████████| 86.3M/86.3M [00:03<00:00, 27.9MB/s]
decoder.jit: 100%|███████████████████████████████████████████████████████████████████████████████████| 126M/126M [00:07<00:00, 18.0MB/s]
autoencoder.jit: 100%|███████████████████████████████████████████████████████████████████████████████| 212M/212M [00:09<00:00, 22.3MB/s]
Fetching 8 files: 100%|███████████████████████████████████████████████████████████████████████████████████| 8/8 [00:10<00:00, 1.32s/it]
Downloading nvidia/Cosmos-1.0-Prompt-Upsampler-12B-Text2World to checkpoints/Cosmos-1.0-Prompt-Upsampler-12B-Text2World…:06, 18.1MB/s]
.gitattributes: 100%|██████████████████████████████████████████████████████████████████████████████| 1.72k/1.72k [00:00<00:00, 4.73MB/s]
Cosmos-1.0-Guardrail%2FREADME.md: 100%|████████████████████████████████████████████████████████████| 43.5k/43.5k [00:00<00:00, 45.7MB/s]
(…)451134b2ddc2e78555d1e857518c54b4bdc2e87d: 100%|██████████████████████████████████████████████████████| 414/414 [00:00<00:00, 104kB/s]
(…)1a87b8f7340ada18ca4f047077a9d5b13882acc1: 100%|█████████████████████████████████████████████████| 5.33k/5.33k [00:00<00:00, 2.80MB/s]
(…)-meta-llama–LlamaGuard-7b%2Frefs%2Fmain: 100%|████████████████████████████████████████████████████| 40.0/40.0 [00:00<00:00, 125kB/s]
(…)0d30a7faffd5631f68ca99856c40c252b1a5839a: 100%|██████████████████████████████████████████████████████| 154/154 [00:00<00:00, 499kB/s]
(…)5f4117005b41815881fe7f26aee4cbec8c55aa32: 100%|█████████████████████████████████████████████████| 23.9k/23.9k [00:00<00:00, 37.6MB/s]
(…)e75756c38e88b19504b139e45c2bb1e925f3863c: 100%|█████████████████████████████████████████████████████| 610/610 [00:00<00:00, 1.52MB/s]
(…)ea73c5106%2Fmodel.safetensors.index.json: 100%|█████████████████████████████████████████████████| 23.9k/23.9k [00:00<00:00, 37.7MB/s]
(…)82e81ea73c5106%2Fspecial_tokens_map.json: 100%|█████████████████████████████████████████████████████| 414/414 [00:00<00:00, 1.16MB/s]
(…)a4722d44e05f82e81ea73c5106%2Fconfig.json: 100%|█████████████████████████████████████████████████████| 610/610 [00:00<00:00, 1.61MB/s]
(…)a6e931b92caff4c79c5c56282f1e89569a0ae558: 100%|█████████████████████████████████████████████████| 1.84M/1.84M [00:00<00:00, 2.13MB/s]
(…)f82e81ea73c5106%2Fgeneration_config.json: 100%|██████████████████████████████████████████████████████| 154/154 [00:00<00:00, 442kB/s]
(…)0ebbbd98f5481437a8021afaf58ee7fb1818d347: 100%|████████████████████████████████████████████████████| 500k/500k [00:00<00:00, 810kB/s]
(…)5f82e81ea73c5106%2Ftokenizer_config.json: 100%|█████████████████████████████████████████████████| 5.33k/5.33k [00:00<00:00, 11.2MB/s]
tokenizer.model: 100%|███████████████████████████████████████████████████████████████████████████████| 500k/500k [00:00<00:00, 2.02MB/s]
(…)c4d110b05e852cead25fcc7426bf251eb3d15aa0: 100%|█████████████████████████████████████████████████████| 781/781 [00:00<00:00, 2.34MB/s]
(…)df2288f442c034b2f3%2Fadapter_config.json: 100%|█████████████████████████████████████████████████████| 781/781 [00:00<00:00, 2.26MB/s]
(…)22d44e05f82e81ea73c5106%2Ftokenizer.json: 100%|█████████████████████████████████████████████████| 1.84M/1.84M [00:00<00:00, 2.14MB/s]
(…)uardrail%2Fblocklist%2Fcustom%2Fbranding: 100%|█████████████████████████████████████████████████| 1.78k/1.78k [00:00<00:00, 4.76MB/s]
(…)y-LlamaGuard-Defensive-1.0%2Frefs%2Fmain: 100%|████████████████████████████████████████████████████| 40.0/40.0 [00:00<00:00, 117kB/s]
(…).0-Guardrail%2Fblocklist%2Fcustom%2Fgore: 100%|█████████████████████████████████████████████████████| 557/557 [00:00<00:00, 1.55MB/s]
(…)Guardrail%2Fblocklist%2Fcustom%2Fnotable: 100%|█████████████████████████████████████████████████| 1.26k/1.26k [00:00<00:00, 3.70MB/s]
(…)uardrail%2Fblocklist%2Fcustom%2Fviolence: 100%|████████████████████████████████████████████████████| 40.0/40.0 [00:00<00:00, 161kB/s]
(…)rail%2Fblocklist%2Fexact_match%2Fblocked: 100%|█████████████████████████████████████████████████| 15.3k/15.3k [00:00<00:00, 33.8MB/s]
(…)k_data%2Ftokenizers%2Fpunkt_tab%2FREADME: 100%|█████████████████████████████████████████████████| 8.57k/8.57k [00:00<00:00, 2.08MB/s]
(…)s%2Fpunkt_tab%2Fczech%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████████| 462/462 [00:00<00:00, 1.54MB/s]
(…)s%2Fpunkt_tab%2Fczech%2Fcollocations.tab: 100%|█████████████████████████████████████████████████| 1.39k/1.39k [00:00<00:00, 5.93MB/s]
(…)%2Fpunkt_tab%2Fczech%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 684k/684k [00:00<00:00, 15.4MB/s]
(…)%2Fpunkt_tab%2Fdanish%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████| 1.13k/1.13k [00:00<00:00, 3.38MB/s]
wordnet.zip: 100%|█████████████████████████████████████████████████████████████████████████████████| 10.8M/10.8M [00:00<00:00, 11.5MB/s]
(…)%2Fpunkt_tab%2Fdanish%2Fcollocations.tab: 100%|█████████████████████████████████████████████████| 1.69k/1.69k [00:00<00:00, 3.94MB/s]
(…)%2Fpunkt_tab%2Fczech%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 352/352 [00:00<00:00, 978kB/s]
(…)2Fpunkt_tab%2Fdanish%2Fsent_starters.txt: 100%|█████████████████████████████████████████████████████| 415/415 [00:00<00:00, 1.06MB/s]
(…)s%2Fpunkt_tab%2Fdutch%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████████| 434/434 [00:00<00:00, 1.03MB/s]
punkt_tab.zip: 100%|███████████████████████████████████████████████████████████████████████████████| 4.26M/4.26M [00:01<00:00, 2.61MB/s]
(…)s%2Fpunkt_tab%2Fdutch%2Fcollocations.tab: 100%|█████████████████████████████████████████████████████| 623/623 [00:00<00:00, 1.90MB/s]
(…)2Fpunkt_tab%2Fdanish%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 744k/744k [00:00<00:00, 1.19MB/s]
(…)%2Fpunkt_tab%2Fdutch%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 310/310 [00:00<00:00, 711kB/s]
(…)2Fpunkt_tab%2Fenglish%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████████| 619/619 [00:00<00:00, 1.59MB/s]
(…)%2Fpunkt_tab%2Fdutch%2Fortho_context.tab: 100%|████████████████████████████████████████████████████| 428k/428k [00:00<00:00, 934kB/s]
(…)2Fpunkt_tab%2Fenglish%2Fcollocations.tab: 100%|█████████████████████████████████████████████████████| 594/594 [00:00<00:00, 1.68MB/s]
(…)Fpunkt_tab%2Fenglish%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 241/241 [00:00<00:00, 667kB/s]
(…)Fpunkt_tab%2Fenglish%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 236k/236k [00:00<00:00, 1.22MB/s]
(…)Fpunkt_tab%2Festonian%2Fabbrev_types.txt: 100%|██████████████████████████████████████████████████████| 224/224 [00:00<00:00, 589kB/s]
(…)Fpunkt_tab%2Festonian%2Fcollocations.tab: 100%|█████████████████████████████████████████████████| 1.82k/1.82k [00:00<00:00, 4.70MB/s]
(…)punkt_tab%2Festonian%2Fsent_starters.txt: 100%|█████████████████████████████████████████████████████| 679/679 [00:00<00:00, 2.24MB/s]
(…)2Fpunkt_tab%2Ffinnish%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████████| 484/484 [00:00<00:00, 1.19MB/s]
(…)2Fpunkt_tab%2Ffinnish%2Fcollocations.tab: 100%|█████████████████████████████████████████████████| 3.05k/3.05k [00:00<00:00, 10.7MB/s]
(…)Fpunkt_tab%2Ffinnish%2Fsent_starters.txt: 100%|█████████████████████████████████████████████████████| 810/810 [00:00<00:00, 2.06MB/s]
(…)%2Fpunkt_tab%2Ffrench%2Fabbrev_types.txt: 100%|██████████████████████████████████████████████████████| 245/245 [00:00<00:00, 598kB/s]
(…)punkt_tab%2Festonian%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 937k/937k [00:00<00:00, 1.31MB/s]
(…)%2Fpunkt_tab%2Ffrench%2Fcollocations.tab: 100%|██████████████████████████████████████████████████████| 334/334 [00:00<00:00, 532kB/s]
(…)2Fpunkt_tab%2Ffrench%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 233/233 [00:00<00:00, 601kB/s]
(…)%2Fpunkt_tab%2Fgerman%2Fabbrev_types.txt: 100%|██████████████████████████████████████████████████████| 246/246 [00:00<00:00, 747kB/s]
(…)Fpunkt_tab%2Ffinnish%2Fortho_context.tab: 100%|█████████████████████████████████████████████████| 1.19M/1.19M [00:00<00:00, 1.39MB/s]
(…)2Fpunkt_tab%2Ffrench%2Fortho_context.tab: 100%|████████████████████████████████████████████████████| 334k/334k [00:00<00:00, 798kB/s]
(…)2Fpunkt_tab%2Fgerman%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 944k/944k [00:00<00:00, 16.1MB/s]
(…)%2Fpunkt_tab%2Fgerman%2Fcollocations.tab: 100%|█████████████████████████████████████████████████████| 527/527 [00:00<00:00, 1.83MB/s]
(…)2Fpunkt_tab%2Fgerman%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 762/762 [00:00<00:00, 882kB/s]
(…)s%2Fpunkt_tab%2Fgreek%2Fcollocations.tab: 100%|██████████████████████████████████████████████████████| 118/118 [00:00<00:00, 346kB/s]
(…)s%2Fpunkt_tab%2Fgreek%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████████| 570/570 [00:00<00:00, 1.61MB/s]
(…)%2Fpunkt_tab%2Fgreek%2Fsent_starters.txt: 100%|█████████████████████████████████████████████████████| 567/567 [00:00<00:00, 1.88MB/s]
(…)2Fpunkt_tab%2Fitalian%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████████| 534/534 [00:00<00:00, 1.74MB/s]
(…)2Fpunkt_tab%2Fitalian%2Fcollocations.tab: 100%|████████████████████████████████████████████████████| 53.0/53.0 [00:00<00:00, 158kB/s]
(…)Fpunkt_tab%2Fitalian%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 208/208 [00:00<00:00, 501kB/s]
(…)%2Fpunkt_tab%2Fgreek%2Fortho_context.tab: 100%|████████████████████████████████████████████████████| 633k/633k [00:00<00:00, 981kB/s]
(…)punkt_tab%2Fnorwegian%2Fcollocations.tab: 100%|█████████████████████████████████████████████████████| 869/869 [00:00<00:00, 1.08MB/s]
(…)punkt_tab%2Fnorwegian%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████████| 496/496 [00:00<00:00, 1.36MB/s]
(…)Fpunkt_tab%2Fitalian%2Fortho_context.tab: 100%|████████████████████████████████████████████████████| 370k/370k [00:00<00:00, 892kB/s]
(…)unkt_tab%2Fnorwegian%2Fsent_starters.txt: 100%|█████████████████████████████████████████████████████| 378/378 [00:00<00:00, 1.01MB/s]
(…)%2Fpunkt_tab%2Fpolish%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████████| 973/973 [00:00<00:00, 2.61MB/s]
(…)%2Fpunkt_tab%2Fpolish%2Fcollocations.tab: 100%|█████████████████████████████████████████████████| 1.10k/1.10k [00:00<00:00, 3.01MB/s]
(…)2Fpunkt_tab%2Fpolish%2Fsent_starters.txt: 100%|█████████████████████████████████████████████████████| 518/518 [00:00<00:00, 1.40MB/s]
(…)unkt_tab%2Fportuguese%2Fabbrev_types.txt: 100%|██████████████████████████████████████████████████████| 301/301 [00:00<00:00, 244kB/s]
(…)unkt_tab%2Fnorwegian%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 734k/734k [00:00<00:00, 2.04MB/s]
(…)2Fpunkt_tab%2Fpolish%2Fortho_context.tab: 100%|█████████████████████████████████████████████████| 1.07M/1.07M [00:00<00:00, 3.19MB/s]
(…)unkt_tab%2Fportuguese%2Fcollocations.tab: 100%|████████████████████████████████████████████████████| 64.0/64.0 [00:00<00:00, 174kB/s]
(…)847b3c81ebd56dd8d796551943ea4b43b2e6c55c: 100%|███████████████████████████████████████████████████| 162M/162M [00:07<00:00, 22.3MB/s]
(…)nkt_tab%2Fportuguese%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 363k/363k [00:00<00:00, 29.4MB/s]
(…)nkt_tab%2Fportuguese%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 209/209 [00:00<00:00, 623kB/s]
(…)2Fpunkt_tab%2Frussian%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████| 15.4k/15.4k [00:00<00:00, 22.7MB/s]
(…)Fpunkt_tab%2Frussian%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 10.0/10.0 [00:00<00:00, 32.0kB/s]
(…)2Fpunkt_tab%2Fslovene%2Fabbrev_types.txt: 100%|██████████████████████████████████████████████████████| 280/280 [00:00<00:00, 812kB/s]
(…)2Fpunkt_tab%2Fslovene%2Fcollocations.tab: 100%|█████████████████████████████████████████████████| 1.13k/1.13k [00:00<00:00, 2.95MB/s]
(…)Fpunkt_tab%2Fslovene%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 358/358 [00:00<00:00, 902kB/s]
(…)2Fpunkt_tab%2Fspanish%2Fabbrev_types.txt: 100%|██████████████████████████████████████████████████████| 234/234 [00:00<00:00, 763kB/s]
(…)2Fpunkt_tab%2Fspanish%2Fcollocations.tab: 100%|████████████████████████████████████████████████████| 74.0/74.0 [00:00<00:00, 207kB/s]
(…)Fpunkt_tab%2Fspanish%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 289/289 [00:00<00:00, 921kB/s]
(…)Fpunkt_tab%2Fslovene%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 445k/445k [00:00<00:00, 1.01MB/s]
(…)2Fpunkt_tab%2Fswedish%2Fabbrev_types.txt: 100%|██████████████████████████████████████████████████████| 208/208 [00:00<00:00, 535kB/s]
adapter_model.safetensors: 100%|█████████████████████████████████████████████████████████████████████| 162M/162M [00:08<00:00, 19.5MB/s]
(…)2Fpunkt_tab%2Fswedish%2Fcollocations.tab: 100%|██████████████████████████████████████████████████████| 136/136 [00:00<00:00, 312kB/s]
(…)Fpunkt_tab%2Fswedish%2Fsent_starters.txt: 100%|██████████████████████████████████████████████████████| 295/295 [00:00<00:00, 916kB/s]
(…)Fpunkt_tab%2Fspanish%2Fortho_context.tab: 100%|████████████████████████████████████████████████████| 338k/338k [00:00<00:00, 770kB/s]
(…)Fpunkt_tab%2Fswedish%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 617k/617k [00:00<00:00, 2.93MB/s]
(…)2Fpunkt_tab%2Fturkish%2Fabbrev_types.txt: 100%|█████████████████████████████████████████████████████| 424/424 [00:00<00:00, 1.36MB/s]
(…)2Fpunkt_tab%2Fturkish%2Fcollocations.tab: 100%|██████████████████████████████████████████████████████| 273/273 [00:00<00:00, 868kB/s]
(…)%2Fblocklist%2Fwhitelist%2Ffuzzy_blocked: 100%|███████████████████████████████████████████████████| 5.00/5.00 [00:00<00:00, 14.7kB/s]
(…)Fpunkt_tab%2Fturkish%2Fortho_context.tab: 100%|███████████████████████████████████████████████████| 643k/643k [00:00<00:00, 4.05MB/s]
Cosmos-1.0-Guardrail%2Fconfig.json: 100%|█████████████████████████████████████████████████████████████| 45.0/45.0 [00:00<00:00, 140kB/s]
(…)Fpunkt_tab%2Fturkish%2Fsent_starters.txt: 100%|█████████████████████████████████████████████████████| 613/613 [00:00<00:00, 1.44MB/s]
(…)051261b5a784a2e7e5f93de1f86d170d69a9efd9: 100%|██████████████████████████████████████████████████████| 368/368 [00:00<00:00, 918kB/s]
(…)6555f2261d409dea394d6b6973129a53b8725803: 100%|█████████████████████████████████████████████████████| 409/409 [00:00<00:00, 1.02MB/s]
(…)70741c5c1f6d21423ebf51ee77ef2fce868c33f2: 100%|█████████████████████████████████████████████████████| 711/711 [00:00<00:00, 2.11MB/s]
(…)a513b447f6b05f640f9980d25f4d8a5cff6cd25d: 100%|█████████████████████████████████████████████████████| 576/576 [00:00<00:00, 1.57MB/s]
(…)-siglip-so400m-patch14-384%2Frefs%2Fmain: 100%|████████████████████████████████████████████████████| 40.0/40.0 [00:00<00:00, 104kB/s]
(…)d1a03a25b10dba0329ab15c2a3%2Fconfig.json: 100%|█████████████████████████████████████████████████████| 576/576 [00:00<00:00, 1.70MB/s]
(…)a0329ab15c2a3%2Fpreprocessor_config.json: 100%|█████████████████████████████████████████████████████| 368/368 [00:00<00:00, 1.04MB/s]
(…)ba0329ab15c2a3%2Fspecial_tokens_map.json: 100%|█████████████████████████████████████████████████████| 409/409 [00:00<00:00, 1.18MB/s]
(…)e288752391797c4bb1a284aa18c9a0b23fcaf8ec: 100%|███████████████████████████████████████████████████| 798k/798k [00:00<00:00, 1.25MB/s]
spiece.model: 100%|██████████████████████████████████████████████████████████████████████████████████| 798k/798k [00:00<00:00, 3.90MB/s]
(…)0dba0329ab15c2a3%2Ftokenizer_config.json: 100%|█████████████████████████████████████████████████████| 711/711 [00:00<00:00, 1.52MB/s]
README.md: 100%|███████████████████████████████████████████████████████████████████████████████████| 20.4k/20.4k [00:00<00:00, 13.2MB/s]
(…)6d6fd0bd6cc263099dc98e4fa383f90c9baa3521: 100%|█████████████████████████████████████████████████| 2.40M/2.40M [00:01<00:00, 2.10MB/s]
config.json: 100%|██████████████████████████████████████████████████████████████████████████████████████| 272/272 [00:00<00:00, 811kB/s]
special_tokens_map.json: 100%|█████████████████████████████████████████████████████████████████████████| 414/414 [00:00<00:00, 1.02MB/s]
safety_filter.pt: 100%|████████████████████████████████████████████████████████████████████████████| 5.81M/5.81M [00:00<00:00, 10.3MB/s]
(…)03a25b10dba0329ab15c2a3%2Ftokenizer.json: 100%|█████████████████████████████████████████████████| 2.40M/2.40M [00:00<00:00, 3.22MB/s]
tokenizer_config.json: 100%|█████████████████████████████████████████████████████████████████████████| 181k/181k [00:00<00:00, 9.36MB/s]
tokenizer.json: 100%|██████████████████████████████████████████████████████████████████████████████| 9.26M/9.26M [00:00<00:00, 10.6MB/s]
Resnet50_Final.pth: 100%|████████████████████████████████████████████████████████████████████████████| 109M/109M [00:04<00:00, 26.1MB/s]
model.pt: 100%|████████████████████████████████████████████████████████████████████████████████████| 24.5G/24.5G [14:40<00:00, 27.8MB/s]
Fetching 144 files: 100%|█████████████████████████████████████████████████████████████████████████████| 144/144 [14:54<00:00, 6.21s/it]
Downloading mistralai/Pixtral-12B-2409 to checkpoints/Pixtral-12B-2409…█████████████████████████▉| 24.5G/24.5G [14:40<00:00, 26.9MB/s]
params.json: 100%|██████████████████████████████████████████████████████████████████████████████████████| 515/515 [00:00<00:00, 661kB/s]
consolidated.safetensors: 100%|████████████████████████████████████████████████████████████████████| 25.4G/25.4G [16:20<00:00, 25.9MB/s]
Fetching 2 files: 100%|██████████████████████████████████████████████████████████████████████████████████| 2/2 [16:21<00:00, 490.64s/it]
Model saved to checkpoints/Pixtral-12B/model.pt

can anybody help me on this?

Hi,

We are trying to reproduce this issue internally.
Will get back to you soon.

Thanks.

Hi,

Thanks for your patience.
We can get the video output with the changes below. Please give it a try.

diff --git a/cosmos1/models/diffusion/module/pretrained_vae.py b/cosmos1/models/diffusion/module/pretrained_vae.py
index 05f6f3e..cd8ee8d 100644
--- a/cosmos1/models/diffusion/module/pretrained_vae.py
+++ b/cosmos1/models/diffusion/module/pretrained_vae.py
@@ -108,7 +108,8 @@ class BasePretrainedImageVAE(BaseVAE):
         self.name = name
 
     def register_mean_std(self, vae_dir: str) -> None:
-        latent_mean, latent_std = torch.load(os.path.join(vae_dir, "image_mean_std.pt"), weights_only=True)
+        #latent_mean, latent_std = torch.load(os.path.join(vae_dir, "image_mean_std.pt"), weights_only=True)
+        latent_mean, latent_std = torch.load(os.path.join(vae_dir, "image_mean_std.pt"), weights_only=False)
 
         target_shape = [1, self.latent_ch, 1, 1] if self.is_image else [1, self.latent_ch, 1, 1, 1]
 
@@ -195,7 +196,8 @@ class JITVAE(BasePretrainedImageVAE):
         """
         Load the encoder from the remote store.
         """
-        self.encoder = torch.load(os.path.join(vae_dir, "encoder.jit"), weights_only=True)
+        #self.encoder = torch.load(os.path.join(vae_dir, "encoder.jit"), weights_only=True)
+        self.encoder = torch.load(os.path.join(vae_dir, "encoder.jit"), weights_only=False)
 
         self.encoder.eval()
         for param in self.encoder.parameters():
@@ -206,7 +208,8 @@ class JITVAE(BasePretrainedImageVAE):
         """
         Load the decoder from the remote store.
         """
-        self.decoder = torch.load(os.path.join(vae_dir, "decoder.jit"), weights_only=True)
+        #self.decoder = torch.load(os.path.join(vae_dir, "decoder.jit"), weights_only=True)
+        self.decoder = torch.load(os.path.join(vae_dir, "decoder.jit"), weights_only=False)
 
         self.decoder.eval()
         for param in self.decoder.parameters():
@@ -340,7 +343,8 @@ class BasePretrainedVideoTokenizer(ABC):
         self.max_dec_batch_size = max_dec_batch_size
 
     def register_mean_std(self, vae_dir: str) -> None:
-        latent_mean, latent_std = torch.load(os.path.join(vae_dir, "mean_std.pt"), weights_only=True)
+        #latent_mean, latent_std = torch.load(os.path.join(vae_dir, "mean_std.pt"), weights_only=True)
+        latent_mean, latent_std = torch.load(os.path.join(vae_dir, "mean_std.pt"), weights_only=False)
 
         latent_mean = latent_mean.view(self.latent_ch, -1)[:, : self.latent_chunk_duration]
         latent_std = latent_std.view(self.latent_ch, -1)[:, : self.latent_chunk_duration]
root@tegra-ubuntu:/opt/Cosmos# PYTHONPATH=$(pwd) python3 cosmos1/models/diffusion/inference/text2world.py
--checkpoint_dir checkpoints
--diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World
--prompt "$PROMPT"
--video_save_name Cosmos-1.0-Diffusion-7B-Text2World_memory_efficient
--offload_tokenizer
--offload_diffusion_transformer
--offload_text_encoder_model
--offload_prompt_upsampler
--offload_guardrail_models
...
[02-27 09:18:12|INFO|cosmos1/models/diffusion/inference/world_generation_pipeline.py:353:generate] Run generation
/usr/local/lib/python3.10/dist-packages/torch/serialization.py:1434: UserWarning: 'torch.load' received a zip file that looks like a TorchScript archive dispatching to 'torch.jit.load' (call 'torch.jit.load' directly to silence this warning)
  warnings.warn(
[02-27 11:29:02|INFO|cosmos1/models/diffusion/inference/world_generation_pipeline.py:358:generate] Finish generation
[02-27 11:29:02|INFO|cosmos1/models/diffusion/inference/world_generation_pipeline.py:360:generate] Run guardrail on generated video
/usr/local/lib/python3.10/dist-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/usr/local/lib/python3.10/dist-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
[02-27 11:29:59|INFO|cosmos1/models/diffusion/inference/world_generation_pipeline.py:365:generate] Pass guardrail on generated video
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
To disable this warning, you can either:
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
[02-27 11:30:00|INFO|cosmos1/models/diffusion/inference/text2world.py:154:demo] Saved video to outputs/Cosmos-1.0-Diffusion-7B-Text2World_memory_efficient.mp4
[02-27 11:30:00|INFO|cosmos1/models/diffusion/inference/text2world.py:155:demo] Saved prompt to outputs/Cosmos-1.0-Diffusion-7B-Text2World_memory_efficient.txt

Thanks.

Hi AastaLLL,

Thank you, I will try and get back to you.

Hi AastaLLL,

I made the necessary changes in the pretrained_vae.py file. But I am facing the issue. I have attached the error text file, please go through it. Also i am attaching the pretrained_vae.py(attached as txt file) file FYR. Please suggest if i need to change anything or any mistake if i made.
error_110325.txt (207.4 KB)

pretrained_vae.txt (21.5 KB)