robotsorcerer
diff --git a/‎experiments/mjc_mdgps_antagonist_y1.5/costs.txt
Lines changed: 0 additions & 12 deletions b/‎experiments/mjc_mdgps_antagonist_y1.5/costs.txt
Lines changed: 0 additions & 12 deletions
diff --git a/‎experiments/mjc_mdgps_antagonist_y1.5/hyperparams.py
Lines changed: 0 additions & 176 deletions b/‎experiments/mjc_mdgps_antagonist_y1.5/hyperparams.py
Lines changed: 0 additions & 176 deletions
diff --git a/‎experiments/mjc_mdgps_antagonist_y1.5/off_policy/hyperparams.py
Lines changed: 0 additions & 35 deletions b/‎experiments/mjc_mdgps_antagonist_y1.5/off_policy/hyperparams.py
Lines changed: 0 additions & 35 deletions
diff --git a/‎experiments/mjc_mdgps_antagonist_y1.5/on_policy/hyperparams.py
Lines changed: 0 additions & 35 deletions b/‎experiments/mjc_mdgps_antagonist_y1.5/on_policy/hyperparams.py
Lines changed: 0 additions & 35 deletions
diff --git a/‎experiments/mjc_mdgps_idg_y1.5/costs.txt
Lines changed: 13 additions & 0 deletions b/‎experiments/mjc_mdgps_idg_y1.5/costs.txt
Lines changed: 13 additions & 0 deletions
diff --git a/‎experiments/mjc_mdgps_idg_y1.5/hyperparams.py
Lines changed: 1 addition & 1 deletion b/‎experiments/mjc_mdgps_idg_y1.5/hyperparams.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎experiments/mjc_mdgps_idg_y1.5/trial.txt
Lines changed: 21 additions & 0 deletions b/‎experiments/mjc_mdgps_idg_y1.5/trial.txt
Lines changed: 21 additions & 0 deletions
diff --git a/‎python/gps/algorithm/policy_opt/policy_opt_caffe.py
Lines changed: 2 additions & 2 deletions b/‎python/gps/algorithm/policy_opt/policy_opt_caffe.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎python/gps/algorithm/traj_opt/traj_opt_lqr_python.py
Lines changed: 8 additions & 9 deletions b/‎python/gps/algorithm/traj_opt/traj_opt_lqr_python.py
Lines changed: 8 additions & 9 deletions
diff --git a/‎python/gps/gps_main.py
Lines changed: 6 additions & 2 deletions b/‎python/gps/gps_main.py
Lines changed: 6 additions & 2 deletions
@@ -0,0 +1,13 @@
+[333.14990159275749, 105.55982639501148, 270.04224750159727, 490.9910864456142]
+[323.13856062991363, 139.47001812421871, 198.60506190905406, 420.8664796818822]
+[387.33118832232225, 148.61315571763311, 349.95029068871497, 503.77058506373817]
+[200.7535898640904, 98.895497645003914, 180.72339157065679, 433.19929197006229]
+[173.00828416462969, 238.81158756623827, 331.51755687009233, 469.91999711398682]
+[394.44788274020698, 29.335397251512735, 265.38325900729978, 493.7384856762643]
+[241.98367493269262, 78.317647319468051, 232.52723852392091, 553.55410262641976]
+[280.90363953187068, 99.389410014524998, 263.64504145422512, 356.87591690251475]
+[273.02722779560753, 148.72838490336156, 166.72022888418604, 589.30149040488106]
+[201.66028565401888, 86.422899322473071, 257.56239471809255, 500.76789954972594]
+[185.64478659031516, 118.41621005433652, 195.84033539927924, 462.28908174901045]
+[306.38877164277369, 177.21711302114193, 270.23949188389054, 446.50687476985456]
+[306.38877164277369, 177.21711302114193, 270.23949188389054, 446.50687476985456]
@@ -40,7 +40,7 @@
 EXP_DIR = BASE_DIR + '/../experiments/mjc_mdgps_idg_y1.5/'
 
 common = {
-    'experiment_name': 'idg_y4' + '_' + \
+    'experiment_name': 'idg_1.5' + '_' + \
             datetime.strftime(datetime.now(), '%m-%d-%y_%H-%M'),
     'experiment_dir': EXP_DIR,
     'data_files_dir': EXP_DIR + 'data_files/',
 
@@ -0,0 +1,21 @@
+-59.24
+-323.11
+-409.02
+-438.53
+-441.80
+-454.83
+-463.19
+-464.45
+-462.74
+-450.40
+-461.33
+-460.38
+-461.33
+-460.38
+-461.33
+-460.38
+-461.33
+-460.38
+-461.33
+-460.38
+-461.33
@@ -329,7 +329,6 @@ def prob(self, obs):
 
         return output, pol_sigma, pol_prec, pol_det_sigma
 
-
     def prob_v(self, obs):
         """
         Run policy forward.
@@ -378,6 +377,7 @@ def __getstate__(self):
             'hyperparams': self._hyperparams,
             'dO': self._dO,
             'dU': self._dU,
+            'dV': self._dV,
             'scale': self.policy.scale,
             'bias': self.policy.bias,
             'caffe_iter': self.caffe_iter,
@@ -386,7 +386,7 @@ def __getstate__(self):
 
     # For unpickling.
     def __setstate__(self, state):
-        self.__init__(state['hyperparams'], state['dO'], state['dU'])
+        self.__init__(state['hyperparams'], state['dO'], state['dU'], state['dV'])
         self.policy.scale = state['scale']
         self.policy.bias = state['bias']
         self.caffe_iter = state['caffe_iter']
 
@@ -665,25 +665,23 @@ def forward_robust(self, traj_distr, traj_info):
                     sigma_u[t, idx_x, idx_x],
                     sigma_u[t, idx_x, idx_x].dot(traj_distr.Gu[t, :, :].T),
                     #pad with v terms
-                    sigma_v[t, idx_x, idx_x].dot(traj_distr.Gv[t, :, :].T),
+                    np.zeros_like(sigma_v[t, idx_x, idx_x].dot(traj_distr.Gv[t, :, :].T))
                 ]),
                 np.hstack([
                     traj_distr.Gu[t, :, :].dot(sigma_u[t, idx_x, idx_x]),
                     traj_distr.Gu[t, :, :].dot(sigma_u[t, idx_x, idx_x]).dot(
                         traj_distr.Gu[t, :, :].T
                     ) + traj_distr.pol_covar_u[t, :, :],
                     # pad with adversarial terms
-                    traj_distr.Gv[t, :, :].dot(sigma_v[t, idx_x, idx_x]).dot(
+                    np.zeros_like(traj_distr.Gv[t, :, :].dot(sigma_v[t, idx_x, idx_x]).dot(
                         traj_distr.Gv[t, :, :].T
-                    ) + traj_distr.pol_covar_v[t, :, :]
+                    ) + traj_distr.pol_covar_v[t, :, :])
                 ]),
                 # pad dU terms with zero
-                # np.zeros([dU, dX+dU+dV])
                 np.hstack([
-                    traj_distr.Gv[t, :, :].dot(sigma_v[t, idx_x, idx_x]),
-                    traj_distr.Gv[t, :, :].dot(sigma_v[t, idx_x, idx_x]).dot(
-                        traj_distr.Gv[t, :, :].T
-                    ) + traj_distr.pol_covar_v[t, :, :],
+                    np.zeros_like(traj_distr.Gv[t, :, :].dot(sigma_v[t, idx_x, idx_x])),
+                    np.zeros_like(traj_distr.Gv[t, :, :].dot(sigma_v[t, idx_x, idx_x]).dot(
+                        traj_distr.Gv[t, :, :].T) + traj_distr.pol_covar_v[t, :, :]),
                 # pad with control terms
                     traj_distr.Gu[t, :, :].dot(sigma_u[t, idx_x, idx_x]).dot(
                         traj_distr.Gu[t, :, :].T
@@ -693,7 +691,8 @@ def forward_robust(self, traj_distr, traj_info):
             mu_u[t, :] = np.hstack([
                 mu_u[t, idx_x],
                 traj_distr.Gu[t, :, :].dot(mu_u[t, idx_x]) + traj_distr.gu[t, :],
-                traj_distr.Gv[t, :, :].dot(mu_v[t, idx_x]) + traj_distr.gv[t, :]
+                np.zeros_like(traj_distr.Gv[t, :, :].dot(mu_v[t, idx_x]) + \
+                              traj_distr.gv[t, :])
             ])
 
             if t < T - 1:
 
@@ -206,8 +206,12 @@ def test_policy(self, itr, N):
         )
 
         if self.gui:
-            self.gui.update(itr, self.algorithm, self.agent,
-                traj_sample_lists, pol_sample_lists, protag_pol_samples=self.protag_pol_samples)
+            if self.robust:
+                self.gui.update(itr, self.algorithm, self.agent,
+                    traj_sample_lists, pol_sample_lists, protag_pol_samples=None)
+            else:
+                self.gui.update(itr, self.algorithm, self.agent,
+                    traj_sample_lists, pol_sample_lists, protag_pol_samples=self.protag_pol_samples)
             self.gui.set_status_text(('Took %d policy sample(s) from ' +
                 'algorithm state at iteration %d.\n' +
                 'Saved to: data_files/pol_sample_itr_%02d.pkl.\n') % (N, itr, itr))
-Original file line number
+Diff line change
@@ @@ -0,0 +1,21 @@ @@
 +-59.24
 +-323.11
 +-409.02
 +-438.53
 +-441.80
 +-454.83
 +-463.19
 +-464.45
 +-462.74
 +-450.40
 +-461.33
 +-460.38
 +-461.33
 +-460.38
 +-461.33
 +-460.38
 +-461.33
 +-460.38
 +-461.33
 +-460.38
 +-461.33