上一個星期到了沙角的資優教育學院,和李卓良六段一起演講了AlphaZero的最新技術。
說穿了,是若飪小鮮。
就像做蛋糕一樣,每個人的口味,不同人數的份量也不同。以前沒有電腦,人類沒有辦法確切得出份數,人數,年紀,口味的變化:每大一歲要減多少糖,天氣每熱一度要加多少水才能不太乾身。
AlphaZero不可能做一百個蛋糕,但可以和自己下一百盤一千萬盤棋,再去找出最適當的做蛋糕方法,知道不同局面下棋時的需要,其他因素如何作出相應變化。從前電腦特別強是因為它計算能力高,但不是特別聰明;現在它更懂得什麼更重要,計算時能用倒後推理法來建立學習的方法。
我們可以看看一個更簡單的例子:這是二戰時英軍回廠的飛機,工程師看見回來時飛機很多彈孔,用紅點把它們紀錄好。要加固飛機,是不是就應該把鋼板加在彈孔之上?
很多人都覺得這做法沒錯,但是卻錯了。
有彈孔而能回來,證明飛機還可以飛;但是敵人不會只打飛機的一部份,而是全機也會打。沒彈孔的位置,就說明了飛機已經回不了來。
這就是大學中的簡單統計學方法,Simple Regression。
Comments