“一通推导猛如虎,司机已经0-5。”
“令人心动的科研这个节目真的非常有意义,在这个综艺里我学会了开车的100种死法。”
“好的,我从现在开始不再担心人类会被机器统治了。”
...
轰!轰!轰!
训练还在继续,江铭的智能体不断探索各种策略,然而结局都是一样的。
当然,也有车子一上来就直接减速,然后一直停留在原地直到模拟最大时长的情况。
幸好江铭设置了单次模拟最长就是1分钟,避免了训练卡在这种极度保守的离谱策略上。
短短的半个小时,林欣然已经见过了不知道多少种作死策略了。
只能说智能体真的很厉害,总能找到一种和之前完全不同的作死策略。
“啊啊啊啊,师弟,到底是怎么回事啊,我们的智能体宝宝是个智障怎么办!”,林欣然开启了摇晃模式,一个劲摇晃着江铭肩膀。
“别急,它还在试错,让它再学一会儿。”,江铭被晃得东倒西歪,但仍然坚定道:“一定会学会的。”
出现这种情况,他的心里也没底。
虽然对于人来说,开车不撞墙其实不太难,最起码保持个匀速总是能做到的吧。
但是对于还在学习的智能体来说,可就没那么简单了。
初始化时,数以千计的神经网络节点中,参数值全部是随机的。
这意味着,在不断试错中,但凡有一个节点的参数没训练好,都有可能让智能体出现奇葩行为。
从概率上来讲,一个好的策略,甚至是一个普通的正常一点的控制策略,在训练前期都是不可能出现的。
江铭默默将模拟环境的时间流速调快到外界的10倍。
此时盯着看小车的模拟其实意义不大,加速模拟反而能让智能体训练的更快一些。
于是,轰隆隆的撞车声出现的频率更快了。
江铭黑着脸,调出了监控接口。
这是他之前在实现算法的时候就写好的,用于实时观测目标函数的变动。
不出所料,目标函数还仍然在负数域震荡,只能看出一丁点的爬升迹象。
他隐隐感觉,智能体还是没找到正确的方向,仍然在不断试错。
一旦找到一次,便会呈现出一段目标函数的激增,之后的更新便是一片坦途。
这种时候,可能真的是需要一些运气了。
“我可以帮上什么忙吗?”,林欣然在一旁弱弱地问。
“师姐,你可以帮我来一段祈祷吗?我知道,搞玄学你一直是在行的!”,江铭一边看向林欣然身上的各种玄学配件,一本正经地道。
“好吧。”,林欣然解下脖子上的十字架吊坠,握在手中,这是她来参加综艺特意准备的。
“哦,伟大的算法之神。在这片数据的海洋中,我们寻求智慧的光芒。我们的智能体迷失在状态空间的迷宫,我们的策略在高维的荒野中徘徊。”
“请指引我们,在策略迭代的征途上,不断前行,直至找到最优的解。”
“阿门。”
林欣然睁开眼睛,定睛看向显示器。
只见新一轮的迭代中,目标函数值突然一个飞跃,突破了零点,且仍在稳步提升着...
...