社區(qū)論壇 |

開(kāi)拓者量化網(wǎng) 資訊頻道程序化交易交易心得統(tǒng)計(jì)假設(shè)檢驗(yàn)在量化交易中的應(yīng)用

[轉(zhuǎn)] 統(tǒng)計(jì)假設(shè)檢驗(yàn)在量化交易中的應(yīng)用

2015-02-09 10:05 來(lái)源：量投網(wǎng) 瀏覽：865 評(píng)論：(0) 作者：hjh1350

假設(shè)檢驗(yàn)的基本原理：如果假設(shè)A成立，那么事件B發(fā)生的概率低于5%(當(dāng)然也可以用10%或者1%等標(biāo)準(zhǔn))。實(shí)際隨機(jī)抽樣檢測(cè)中B發(fā)生了，我們可以在0.05的顯著性下認(rèn)為假設(shè)A不成立。在實(shí)際應(yīng)用中我們要注意的是，第一，樣本書越大，越容易驗(yàn)證條件A是否成立；第二，觀察事件B是否發(fā)生時(shí)，一定是要隨機(jī)抽樣的。比如上面那個(gè)硬幣的例子，如果不是隨機(jī)拋硬幣，而是由一個(gè)硬幣拋擲高手來(lái)有認(rèn)為控制硬幣拋擲后的結(jié)果，那么得出來(lái)的結(jié)論對(duì)于硬幣是否標(biāo)準(zhǔn)這一假設(shè)是沒(méi)有參加價(jià)值的。為什么很多歷史數(shù)據(jù)中表現(xiàn)很好的交易系統(tǒng)在后期的實(shí)盤時(shí)效果很差，很大一個(gè)原因就在于針對(duì)歷史數(shù)據(jù)所設(shè)計(jì)的交易系統(tǒng)不符合抽樣隨機(jī)性。

交易應(yīng)用示例：

寫了這么多，還沒(méi)有寫到交易上，可能有些朋友急了。稍安勿躁，有了上面的基礎(chǔ)，再來(lái)談交易模型的假設(shè)檢測(cè)，就很容易了。

先看一種最簡(jiǎn)單的量化交易模型，就是止盈和止損是同樣比例的量化交易模型。比如西蒙斯曾經(jīng)談到過(guò)八十年代他們?cè)?jīng)靠一個(gè)很簡(jiǎn)單的模型賺過(guò)很多錢，就是跳空高開(kāi)(或低開(kāi))后短時(shí)間內(nèi)價(jià)格反向運(yùn)動(dòng)的概率很高，他們的交易策略就是高開(kāi)后做空，低開(kāi)后做多?，F(xiàn)在我們來(lái)根據(jù)這個(gè)思路嘗試做一個(gè)交易模型：跳空高開(kāi)(或低開(kāi))x%后開(kāi)盤入場(chǎng)做空(或做多)，盈利或者虧損y%后就出場(chǎng)。為了便于討論，我們先假設(shè)不存在滑點(diǎn)、手續(xù)費(fèi)等問(wèn)題，同時(shí)假設(shè)當(dāng)天價(jià)格日內(nèi)離開(kāi)盤價(jià)的波動(dòng)幅度必然會(huì)超過(guò)y%，也就說(shuō)日內(nèi)該筆交易一定會(huì)結(jié)束，要么是盈利y%后出場(chǎng)，要么是虧損y%后出場(chǎng)。這么簡(jiǎn)化后，大家再拿這個(gè)和拋硬幣的例子對(duì)比，是不是完全一樣了。

現(xiàn)在來(lái)運(yùn)用假設(shè)檢驗(yàn)的方法來(lái)驗(yàn)證這個(gè)量化交易模型。如果這個(gè)交易模型是無(wú)效的，那么交易盈利或者虧損y%的概率應(yīng)該是各50%(如果虧損大于50%可以反向做的)，和硬幣的例子中兩種結(jié)果的概率完全一樣。現(xiàn)在我們拿檢驗(yàn)硬幣的思路來(lái)檢驗(yàn)這個(gè)模型到底是不是無(wú)效的。我們拿這個(gè)交易模型去歷史數(shù)據(jù)中測(cè)試，假如總共有50次交易記錄，其中盈利的次數(shù)達(dá)到了32次以上或者18次以下(這樣情況就把模型反著寫，即高開(kāi)后做多低開(kāi)后做空)，那么，在5%的顯著性下我們可以拒絕模型無(wú)效這一假設(shè)，這個(gè)交易模型是有效的。

有的朋友可能會(huì)問(wèn)了，這個(gè)模型中的x和y這兩個(gè)參數(shù)到底取什么值呢？這就涉及到模型訓(xùn)練的問(wèn)題了。x和y具體取什么值最合適，不通過(guò)數(shù)據(jù)測(cè)試，我們是無(wú)法知道的。通用的統(tǒng)計(jì)學(xué)方法(通訊、搜索引擎等領(lǐng)域也是這個(gè)方法)是，選取大量的訓(xùn)練數(shù)據(jù)，對(duì)模型各個(gè)參數(shù)進(jìn)行測(cè)試，選擇表現(xiàn)最佳的參數(shù)。具體到交易上，就是選取足夠多的歷史數(shù)據(jù)，進(jìn)行參數(shù)優(yōu)化，綜合考慮收益率、最大回撤、穩(wěn)定性等因素，選擇相對(duì)最合適的。不同參數(shù)之間的好壞差異的比較在統(tǒng)計(jì)學(xué)上也是有方法的，相對(duì)復(fù)雜一點(diǎn)，以后有機(jī)會(huì)再寫一篇詳談這個(gè)。

既然是量化交易模型訓(xùn)練后的最佳參數(shù)，問(wèn)題也就來(lái)了，這個(gè)最佳參數(shù)是非隨機(jī)產(chǎn)生的，而是人為訓(xùn)練選擇的，這違背了我們?cè)谧鲇矌艡z測(cè)時(shí)所強(qiáng)調(diào)的隨機(jī)抽樣。那么，如何驗(yàn)證這個(gè)模型的有效性呢？統(tǒng)計(jì)學(xué)的方法是拿這個(gè)模型對(duì)新的數(shù)據(jù)(與原有訓(xùn)練數(shù)據(jù)完全獨(dú)立)做測(cè)試，如果測(cè)試的結(jié)果仍然拒絕模型無(wú)效這一假設(shè)，那么，我們可以認(rèn)為模型在很大的概率上是有效的。具體到交易而言，就是把歷史數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和盲測(cè)數(shù)據(jù)兩部分，訓(xùn)練數(shù)據(jù)用于模型訓(xùn)練，如果在訓(xùn)練數(shù)據(jù)上訓(xùn)練好的拒絕無(wú)效假設(shè)的交易模型在盲測(cè)數(shù)據(jù)中仍然表現(xiàn)為拒絕無(wú)效假設(shè)，那么，可以認(rèn)為模型在很大的概率上有效。當(dāng)然，還有進(jìn)一步更嚴(yán)格的方式是，讓模型繼續(xù)在未來(lái)的新的數(shù)據(jù)上測(cè)試，如果表現(xiàn)仍然很好，則再可以考慮分配一定比例的資金開(kāi)始實(shí)際運(yùn)作。

我們?cè)谧龀绦蚧灰字薪?jīng)常談到量化交易模型的衰敗。那么，用什么標(biāo)準(zhǔn)來(lái)判斷模型的衰敗呢？我的個(gè)人思路是：繼續(xù)用假設(shè)檢驗(yàn)這個(gè)方法來(lái)檢驗(yàn)。就是如果你在不斷的交易過(guò)程中你的后期的一系列交易數(shù)據(jù)已經(jīng)無(wú)法拒絕交易模型無(wú)效這一假設(shè)了，那么，這個(gè)時(shí)候即便你的量化交易模型仍然還是盈利的，你也要小心了，至少應(yīng)該降低倉(cāng)位了。

這個(gè)高低開(kāi)的日內(nèi)交易模型是很簡(jiǎn)單的一種模型了，止盈止損都是一個(gè)額度，50%對(duì)半開(kāi)的隨機(jī)假設(shè)，這個(gè)直接套用硬幣的例子就可以。還有更復(fù)雜一點(diǎn)的，比如趨勢(shì)交易模型，這種模型由于其趨勢(shì)交易追求高盈虧比的理念，這種模型的勝率是低于50%的，一般在35%左右，但是盈虧比可能高于3：1。這種模型就不同于硬幣的例子了，無(wú)法直接套用硬幣的計(jì)算結(jié)果，但是思路是一致的，有興趣的朋友可以自己思考一下這種情況下應(yīng)該如何計(jì)算。

注意事項(xiàng)：

1.不可忘記或者因?yàn)槟承├嬉蛩毓室馔洺闃咏y(tǒng)計(jì)中的隨機(jī)原則。概率法則有效的前提是隨機(jī)抽樣。如果人為影響樣本的抽取過(guò)程甚至制造假的樣本，則樣本對(duì)于總體的預(yù)測(cè)價(jià)值是0甚至是相反的。在做量化交易模型測(cè)試時(shí)，務(wù)必至少要有訓(xùn)練數(shù)據(jù)和盲測(cè)數(shù)據(jù)，在訓(xùn)練數(shù)據(jù)上表現(xiàn)優(yōu)異的模型必須在盲測(cè)數(shù)據(jù)上也能足夠優(yōu)秀到可以拒絕模型無(wú)效的假設(shè)，才可以考慮將模型運(yùn)用到實(shí)戰(zhàn)中。網(wǎng)上有不少賣模型的人，給出的模型在歷史數(shù)據(jù)上的交易曲線幾乎是一條無(wú)回撤的上漲直線，但是，一旦實(shí)盤交易，就開(kāi)始大幅度回撤，很大的可能就是在于這個(gè)模型針對(duì)歷史數(shù)據(jù)做了非隨機(jī)性的定向優(yōu)化，同時(shí)因?yàn)槔娴年P(guān)系模型開(kāi)發(fā)者故意沒(méi)有做盲測(cè)這一個(gè)過(guò)程。

2.牢記假設(shè)檢驗(yàn)的原則，寧可錯(cuò)過(guò)，不可做錯(cuò)。任何一個(gè)模型，在沒(méi)有足夠的數(shù)據(jù)證明這個(gè)模型是有效前，均假設(shè)該模型為無(wú)效的。這就是量化交易的痛苦的地方，量化交易者最容易出現(xiàn)的情況是，花了很多時(shí)間，在訓(xùn)練數(shù)據(jù)上挖掘出了一系列的可以拒絕無(wú)效假設(shè)的交易模型，跑到盲測(cè)數(shù)據(jù)上一一測(cè)試，均無(wú)法在0.05的顯著性水平上拒絕模型無(wú)效的檢驗(yàn)，心拔涼拔涼的，感覺(jué)這么多時(shí)間的付出浪費(fèi)了，心有不甘。再怎么心有不甘，也不能自欺欺人的把沒(méi)有拒絕無(wú)效假設(shè)的模型上線，心有不甘總比虧錢好。

3.要有風(fēng)險(xiǎn)意識(shí)。即便是在0.05的顯著性水平下在訓(xùn)練數(shù)據(jù)、盲測(cè)數(shù)據(jù)甚至是新的實(shí)盤交易數(shù)據(jù)上全部拒絕無(wú)效假設(shè)，也不代表這個(gè)模型一定是永遠(yuǎn)有效的。一方面，這是由于這種將低概率事件近視為“不可能事件”的假設(shè)檢驗(yàn)方式?jīng)Q定的。另一方面，也是很重要的一方面，就是可能隨著時(shí)間的變遷，市場(chǎng)本質(zhì)特征發(fā)生變化了，你這個(gè)模型背后所體現(xiàn)的那個(gè)影響市場(chǎng)的因素發(fā)生變化了。

說(shuō)到量化交易模型背后所體現(xiàn)的因素，我展開(kāi)多說(shuō)一點(diǎn)。近幾日和小魚在微博上討論了概率是否在金融市場(chǎng)上可以運(yùn)用和市場(chǎng)是否可以預(yù)測(cè)的問(wèn)題。否認(rèn)市場(chǎng)可以預(yù)測(cè)的一個(gè)很有力的論據(jù)就是影響市場(chǎng)走勢(shì)的因素千千萬(wàn)，交易者根本無(wú)法一一識(shí)別這些因素，更加難以識(shí)別這些因素中每個(gè)因素的權(quán)重影響，故無(wú)法預(yù)測(cè)。那么，有沒(méi)有可能存在這樣一種情況，就是我無(wú)法直接知道是哪些因素影響了市場(chǎng)，但是我可以間接的通過(guò)一種方式預(yù)測(cè)市場(chǎng)會(huì)以什么樣的概率運(yùn)動(dòng)。我先說(shuō)統(tǒng)計(jì)學(xué)上一個(gè)有趣的例子。

在美國(guó)的中西部的一個(gè)小鎮(zhèn)上，人們發(fā)現(xiàn)一個(gè)很有趣的不合邏輯的現(xiàn)象，就是冰激淋的消費(fèi)量越高，犯罪率越高。這個(gè)具體的兩個(gè)變量間的線性相關(guān)程度統(tǒng)計(jì)學(xué)里面是有專門的公式的。總之，就是經(jīng)過(guò)統(tǒng)計(jì)發(fā)現(xiàn)，犯罪率的高低與冰激淋的消費(fèi)量存在強(qiáng)的正相關(guān)，即冰激淋銷量高時(shí)犯罪率高，冰激淋銷量低時(shí)犯罪率低。

現(xiàn)在兩個(gè)問(wèn)題：1.冰激淋銷量是否可以預(yù)測(cè)犯罪率；2.如果人為控制改變冰激淋銷量，是否可以改變犯罪率。

對(duì)于第2個(gè)問(wèn)題，我想任何一個(gè)有生活常識(shí)的人都會(huì)知道，犯罪率與冰激淋銷量完全無(wú)關(guān)，人為改變冰激淋銷量并不能改變犯罪率。對(duì)于第1個(gè)問(wèn)題，就會(huì)比較困惑了。因?yàn)槌ＷR(shí)告訴我們，冰激淋與犯罪無(wú)關(guān)，但是統(tǒng)計(jì)學(xué)的數(shù)據(jù)又表明二者是正相關(guān)，那么到底是什么原因呢？慢慢的，人們終于想到了天氣這一共同因素。冰激淋的銷量與天氣緊密相關(guān)，天氣越熱銷量越高，同時(shí)，天氣越熱，人越容易在室外活動(dòng)，越容易開(kāi)窗(導(dǎo)致偷盜概率增加)，女性越容易穿著暴露(導(dǎo)致性犯罪增加)，人的心情也越煩躁(導(dǎo)致沖動(dòng)型犯罪增加)。于是，我們知道了，因?yàn)樘鞖膺@一共同因素，只要沒(méi)有人為的刻意影響冰激淋的消費(fèi)量，冰激凌的消費(fèi)量是可以預(yù)測(cè)犯罪率的。其實(shí)，只要我們沒(méi)有人為的刻意影響冰激淋的消費(fèi)量，即使我們不知道是因?yàn)樘鞖膺@一共同因素，我們也可以用冰激淋銷量來(lái)預(yù)測(cè)犯罪率。

現(xiàn)在說(shuō)回到量化交易。假如，有這樣一個(gè)量化模型，無(wú)論是在訓(xùn)練數(shù)據(jù)上還是盲測(cè)數(shù)據(jù)上還是在新的實(shí)盤交易數(shù)據(jù)上，均可以在0.05的顯著下拒絕模型無(wú)效的假設(shè)，那么，我們有必要認(rèn)為，在95以上的概率上，這個(gè)量化模型背后存在一種共同的影響因子能夠較大的影響市場(chǎng)的短期走勢(shì)，盡管，這個(gè)影響因子到底是什么我們不知道，但只要這個(gè)因子在，這個(gè)量化模型就仍然有效。因?yàn)槲覀儾恢肋@個(gè)因子是什么，所以我們更加不可能直接的發(fā)現(xiàn)這個(gè)因子是否已經(jīng)變化了，我們?nèi)匀恢荒芡ㄟ^(guò)這個(gè)量化模型的之后的表現(xiàn)來(lái)間接預(yù)測(cè)。如果量化模型一直在0.05的顯著下拒絕無(wú)效的假設(shè)，那么可以認(rèn)為這個(gè)因子仍然存在，如果無(wú)法拒絕了，則可以認(rèn)為這個(gè)因子可能消失了或者至少?zèng)]以前那么重要了

通過(guò)上段分析，可以看出時(shí)間對(duì)于量化交易模型有效性的重要性。我想這也是高頻交易開(kāi)始流行一個(gè)很重要的原因。因?yàn)楦哳l交易的模型，訓(xùn)練和盲測(cè)所需要的時(shí)間周期很短，那么量化交易模型背后的那個(gè)影響因素仍然存在的概率很高，而低頻交易，訓(xùn)練和盲測(cè)所需要的時(shí)間可能需要半年甚至更長(zhǎng)時(shí)間，很可能那個(gè)影響因素已經(jīng)變化了。

評(píng)分:

發(fā)表評(píng)論(0) 寫幾句您的點(diǎn)評(píng)

評(píng)論列表(0)

第 1- 0 條, 共 0 條.

您需要 [注冊(cè)] 或 [登陸] 后才能發(fā)表點(diǎn)評(píng)