第41章试错、探索与利用_从信息学霸到神级科学家

江铭将众人表情尽收眼底，表情仍旧平静如水，轻点鼠标翻到第二页。

“在介绍我们组的方案之前，我想先提一个问题：我们所设计的控制策略究竟是什么？”

众学员皱眉，控制策略就是控制策略啊，这还能怎么去挖掘？

江铭这个问题就好像是问大家数字1究竟是什么一样。

江铭看众人仍不理解，便继续引导道：“就用我们现在自适应巡航的问题来举例。”

“比如说有一种控制策略是，离前车近，就减速；反之如果离前车远，就加速。”

“或者把这个控制策略细化一下，距离前车小于1米，就把油门降到原来的80%，距离大于1米就把油门提高到原来的120%。”

“这就是一个非常简单的控制策略，虽然没人会用它。”

“但是这个例子很直观地反应了，策略其实是从当前环境状态到动作的一个函数。”

“对于任何情况，无论是车距、车速、上坡下坡，刮风下雨，这个函数都可以根据环境状态计算得到一个动作值。”

“因此，一个最优的控制策略，其实是一个最优的函数。这个函数无论输入什么样的环境状态值x，都能得到一个当下最优的动作值y！”

江铭的一席话振聋发聩，顿时在场学员们都有所明悟，就连彭导都露出了赞赏的神色。

“但是你要怎么得到这个函数呢，难道你能构建一个极其复杂的偏微分方程，甚至还能求出其解函数吗？”，谢恒忍不住反驳道。

这简直是异想天开，包含控制策略的偏微分方程早就复杂到超出人类能表达的极限了，根本不是人能构建的。

而且，先不说这个函数能不能构造的问题，甚至不说这个函数能不能求解的事，如果求解出的这个最优策略函数本就没有封闭形式的表达式呢？

没有封闭形式的表达式，意味着这个函数根本没法写出来，就更别提输入环境值x得到动作值y了。

谢恒只当江铭是彻底昏了头，知道自己的方案比不过，便琢磨一些高大上的没有实际意义的概念，再美名其曰创新，企图交差。

他心里清楚，这种不能落地的方案根本入不了彭城的眼。

他为什么这么执着于在节目离拿下第一，就是因为他知道这一次的代教导师彭城，在整个业界的地位。

江铭也许不懂，但当他来到节目组看到代教导师是彭城时，简直惊讶得以为在做梦！

只要能在这次节目里获得他的好感，那以后无论是去工业界还是混学术界，都是横着走。

“这根本就是不可能的。”，谢恒自语道。

“其实不需要我们人工构造微分方程，只需要用神经网络训练即可。”，江铭微笑回答，指了指小标题道：“这也是我即将要讲的，试错、探索与利用。”

“自然界中，几乎所有的生物，都有着各种策略。捕猎需要策略，筑巢需要策略。我们人类平日的生活，做饭，出行路线，这些都是策略。”

“这难道是因为在我们大脑里有一个微分方程吗？不，我们是通过不断试错学习得来的。”

“做饭咸了，下一次就少加盐；出行这一条路慢了，下回就换条路走。这种通过试错迭代学习的模式几乎贯穿了我们的一生。”

“那么如果我们能设计一个智能体，神经网络就是它的大脑，只需要不断探索不同的策略，在模拟的世界中试错。”

“然后，让神经网络利用这些试错数据，好的部分保留，不好的部分丢弃，不断迭代。”

“最终，神经网络就能无限逼近我们前面所提到的最优策略函数。”

...

泡泡中文