ValueError: The parameter loc has invalid values

DDPG7 · November 4, 2021, 12:21am

Hi
I ran into the title trouble while training on “train.py”. But I was able to resume training.

################################################################################
                     Learning iteration 3560/100000                     

                       Computation: 18730 steps/s (collection: 0.368s, learning 0.507s)
               Value function loss: 368767368678676103168.0000
                    Surrogate loss: 0.0000
             Mean action noise std: 1.00
                       Mean reward: 471859841.44
               Mean episode length: 78.64
                  Mean reward/step: 120590936.00
       Mean episode length/episode: 7.39
--------------------------------------------------------------------------------
                   Total timesteps: 58343424
                    Iteration time: 0.87s
                        Total time: 2564.29s
                               ETA: 69446.8s

Traceback (most recent call last):
  File "train.py", line 35, in <module>
    train()
  File "train.py", line 26, in train
    ppo.run(num_learning_iterations=ppo_iterations, log_interval=cfg_train["learn"]["save_interval"])
  File "/home/sa/miniconda3/envs/rlgpu/lib/python3.7/site-packages/rl_pytorch/ppo/ppo.py", line 178, in run
    mean_value_loss, mean_surrogate_loss = self.update()
  File "/home/sa/miniconda3/envs/rlgpu/lib/python3.7/site-packages/rl_pytorch/ppo/ppo.py", line 278, in update
    actions_batch)
  File "/home/sa/miniconda3/envs/rlgpu/lib/python3.7/site-packages/rl_pytorch/ppo/module.py", line 129, in evaluate
    distribution = MultivariateNormal(actions_mean, scale_tril=covariance)
  File "/home/sa/miniconda3/envs/rlgpu/lib/python3.7/site-packages/torch/distributions/multivariate_normal.py", line 146, in __init__
    super(MultivariateNormal, self).__init__(batch_shape, event_shape, validate_args=validate_args)
  File "/home/sa/miniconda3/envs/rlgpu/lib/python3.7/site-packages/torch/distributions/distribution.py", line 53, in __init__
    raise ValueError("The parameter {} has invalid values".format(param))
ValueError: The parameter loc has invalid values

kellyg · November 17, 2021, 3:56pm

This error message generally means a part of your observations or rewards hit a NaN in the buffer. Try adding a NaN check for your observations and see if it hits that before this error.

jsdfather · January 8, 2024, 3:38am

Thanks for your reply.The “rewards” you mentioned is “Return”(Accumulated rewards) in PPO? You mean the Accumulated rewards may get a divergence ,which leads to NAN?