AI或理財機器人以行銷為多 - 期貨

Andrew · 2019-11-29

Table of Contents

Post
Comments
Related Posts

個人十幾年前還在上班累積操作資金的時候, 有過台股市值最大公司的類data scientist
經歷, 也是Oracle ERP的data architect, 並受過SAP Data Warehousing 模組的訓練,
也就是之前上班十幾年的工作都是靠data吃飯(全職操作後更是努力地玩data, 近幾年趕
流行也嘗試過AI). 對於不懂大數據或區塊鏈的, 改天也附上我曾寫過的掃盲文

近幾年理財機器人或是人工智慧(AI), 因為AlphaGo戰勝棋王的宣傳變得很夯, 不少人以
為面對類似的市場戰局(抉擇), 人工智慧必定很有發揮的空間; 現實卻殘忍地告訴您, AI
團隊努力了幾年卻宣告失敗了, 改轉進醫療相關領域, 可參考連結報導
zhuanlan.zhihu.com/p/31913355 (也有人說是假新聞)

簡化地告訴您, 人工展現智慧前, 必須有一段機器學習的過程; 而這機器學習(ML)通常可
以這樣定義：「透過從過往的資料和經驗中學習並找到其運行規則。」然而正是這 [資料
] 和[經驗] 侷限了一切!

黑天鵝的由來大家都知道吧? 話說古時候北半球的人, 一輩子根本沒機會看過南半球的天
鵝有些是黑色的, 因此他的 [資料] 和[經驗] 就侷限在天鵝只會有白色的, 所以我們拿
來訓練機器的資料也只能會有白色的(沒發生過的資料, 人類也無能更不可能預見出來),
當這種訓練下來的人工智慧機器, 後來遇到它沒見過的狀況(黑天鵝)時, 您還會認為它會
做出有智慧的反應嗎? 哪怕它學習時用的演算法是什麼manifold regularization或是
TSVM都沒三小路用

市場因為參與者眾多, 組成分子又會汰舊換新(不管是被抬出場或真正死亡), 市場老師的
行為是一直在改變的, 對人工智慧機器來說, 就是不斷地用新出的黑天鵝(它的學習資料
庫不存在這些資料), 去挑戰它好不容易用演算法搞出來的規則, 這只會讓它不斷地傻眼
而已. 圍棋變數多但仍是有限解(雖窮舉後的資料龐大), 人類可以用有限解的部分集合
(ex: 棋譜資料)去訓練電腦, 讓它能在限定時間內算出最佳可行解; 但交易市場屬於無限
解... 很難辦!

結論回到好的操作方法絕對不是單從市場實戰經驗導出來的, 也可以看做在歷史資料(實
戰經驗)中找賺錢的行為或方法, 是有問題的. 繼續重申 --- 正確的作法應是先有理論或
model, 理論的涵蓋度夠廣後(把看不見黑天鵝的機率降低), 再用歷史資料去印證理論
(model)在已發生資料中的實務可行性, 並且達到在 [不修正] 任何參數的前提下, 且在
[不同時間架構]中, 和 [不同商品] 間, 都有同樣水準以上的穿透性(以上 [三不] 最重
要)

有人提問 ---

若給AI夠多的資料，涵蓋的範圍夠廣，譬如幾十年的資料，幾百個市場，正常人類考慮不
了這麼大量的資訊，但對AI卻只是運算速度跟儲存空間的問題。就像一個累積幾百年歷史
經驗的老師父，是不是能讓AI對戰人類（壽命只有幾十年和有限的思考力）取得優勢呢？

Ans: 現階段做不到, 未來我不敢說!
如果您對AI技術有一點了解的話, 搞AI很耗各種資源的. 舉自己例子來說(用R語言寫的,
不知用Python會不會比較快, 我是覺得不會), 曾經花過30天才準備完約3000筆訓練資
料, 用等級最高的CPU i7來跑(沒有另加AGP), 跑個沒很難的演算法(SVM)讓機器去找
rules, 不誇張需要跑3天, 您都會以為機器是不是當掉了! 所以您可以看到為啥前幾年AI
流行的時候, 賣AGP可加速運算的nVidia股價大飆高. AGP能加速多少? 算很厲害讓機器三
天改跑半天就好, 您還是很可能誤認是當機的(還只有三千筆而已) 哈哈

所以太小看現階段AI所需要的資源(軟. 硬體. 各種專家. 訓練資料), 幾十年的資料? 幾
百個市場? 單一公司很難做到, 即便是google也難! 況且最大的問題在於各式訓練資料的
準備(clean, ETL, label), 這需要很專精的domain expert和data scientist, 並且要花
去最多的時間(可能要比訓練機器更久), 加上適格人才難尋啊! 如果在哪一個市場成功
了, 保證google會出來大吹大擂, 就像當初打敗棋王一樣, 沒有這種行銷, 後面的投資者
會繼續出錢? 股價怎辦? 怎麼吸引更多人才? ....???

確實跑多一點訓練資料, 有機會讓機器聰明一點, 但還是不脫主文所提過的 --- 沒發生
過的資料, 人類不知道也無能力, 更不可能預見出來, 只能繼續發生遇見黑天鵝而傻眼的
狀況

其實, 如果有真正強的domain expert和data scientist, 可以避免機器重複學類似的東
西, 資料多若沒篩過, 不會比較好, 所以上面也說 data clean更費工

p.s. AGP是GPU古時候的說法, 用A (Accelerated)比較有加速感

有人問說: 新聞中的沃牛一號是如何辦到絕對獲利的？是短期現象（AI根據短時間（3年
）的資料在短時間內沒遇到黑天鵝）還是自吹自擂的可能性比較大？

我的回答是: 請注意它的用詞是: [回測]的數據令人震驚; 我也常開發出回測令人震驚的
策略, 實際上線使用後也真的令我震驚, 賠錢到趕忙讓程式下架. 絕對獲利就只是不賠另
種說法而已, 要做到沒很難, 我每週公開的實單測試便屬於這種, 但要承受獲利低的缺
點, 大多數情況都是trade-off, 很難兩者兼得的, 如果可以, 這種大發現會得諾貝爾獎
--- Harry Markowitz的論文得獎(同時獲利最大化+風險最小化)

關於人工智慧, 您可以把機器想像成很小的小孩, 看您要怎樣教育他, 每個人教育小孩的
方法都不同. 這就是我說準備訓練資料時的domain expert最重要, 不是只有我們這種
data scientist是關鍵. 根據完全同樣一份市場的報價歷史資料, 您可以將訓練資料準備
成好幾種, 一種是讓機器去學遇到哪幾種狀況同時存在時去做交易的; 另一種是讓機器去
學後面的人心計算是怎麼運作, 然後據此再去交易的, 而其他種則看domain expert的創
意. 像小孩學課程一樣, 教材不同, 學出來的孩子技能也都不同. 當然教材笨笨的, 學出
來的小孩也是笨笨的, 教材裡面沒涵蓋的(ex: 黑天鵝), 被教育出來的小孩要知道也難.
所以才強調AI的重點不在後面的技術, 反在於訓練資料的準備

--

期貨