2010年8月2日 星期一

私隱有價

有危就有機,「八達通」踩入個人私隱的地雷區(mine field),卻暴露了數據開採(Data Mining)這門極具潛力的「新」興行業。地球上大多數的天然礦藏都有開採完的一天,但是數據礦藏則與人同在,源源不絕,而且入行門檻愈來愈低,人人皆可點石成金。

  「知識(Knowledge)就是財富」,如果知識是製成品,資訊(Information)就是零件,數據(Data)即是鑄成零件的原材料。

  數據是金還是鐵,不由天定,人有話事權。地球上最著名的數據開採公司叫Google (GOOG),只要人流增加,網絡活動增加,它的「礦藏」就會不斷增加,公司價值就會不斷上升。

數據開採分3個階段

  如果套用傳統礦業概念來分析,數據開採業也可分為上、中、下游三個領域。上游指的是數據的產生和收集點,如「八達通」、搜尋網站、媒體、社交網、校友名冊等,只要含有個人資料和行為紀錄,基本上就是一個礦。用一個最簡單的例子說明,閣下的博客瀏覽人數愈多,愈有賣廣告的商機,除此之外,你可以從瀏覽的 IP數據中,知道瀏覽者的來源和分布,回應你的讀者比只看不回的讀者可能含有更多特質,如更有可能成為朋友(有說朋友是用來出賣的)。這只是個人的層面,網站、公司、名冊等可供發掘的資訊就更多了。

  上游「公司」的價值基本由3個因素決定,分別是量、質、和技術,量指的是人流,Google、Yahoo!、社交網等都是靠量生財。質是指數據背後的潛在價值,例如高爾夫俱樂部的會員名冊和災民名冊隱含的總商機可能差別很大。

技術改進減低成本

  技術改進,可以開採更深層的礦藏,減低成本,提高產量。隨着技術改進,數據礦增值的機會比下降機會大,而且不斷冒出礦藏。舉一個例,最近一間英國軟件公司發明了一套軟件,它可以記錄了每一個IP地址的活動情況,瀏覽過甚麼,買過甚麼,一覽無遺。過去由於私隱法例,服務供應商不能洩露用戶的資料,但這間軟件公司的新軟件給每個IP地址一個曲奇(cookie),服務供應商就可以改賣「曲奇」,而不是賣「人頭」。這樣一來,自科技泡沫以來一直沉寂不起的網絡服務供應商和有綫公司(Cable)一下子有了生氣,Google也可能搜尋不出這個礦藏。

  中游通常是指提煉,在數據開採業來說,指的是軟件開發和顧問公司。商場中人一定聽過CRM(Customer Relationship Management),這只是數據開採軟件的一隅。數據開採已不限商業領域,體育、醫學研究等也開始廣泛應用,有一套運動軟件可以發現A籃球運動員傳球給B球員的時候,B球員的命中率會大大提升,增加取勝的把握。

  目前,數據情報(Data Intelligence)是軟件業增長最快的領域之一。傳統上,商業軟件公司如甲骨文(Oracle)、SAP、IBM、MicroStrategy、 Advent Software都有從事這方面的業務,科技泡沫後,這些公司的股價基本都呈上升走勢。近年個人軟件公司如微軟、Google等都紛紛加入爭奪這塊肥肉。

  下游是終端用戶,目前以企業或機構為主,應用面十分廣。以零售為例,最大零售連鎖店Walmart早就開放其銷售的數據庫給供應商使用,既增加效率,又減省成本,甚至發現商機。美國一間零售連鎖店由其銷售數據中發現,在周四和周六買嬰兒尿片的男性,買啤酒的機率十分高,連鎖店可以作出對應,如在周四和周六將啤酒的推銷架靠近尿片,又或者周四和周六啤酒不減價。

  人才是現代商業的寶貴財產,公司可以從過往優秀員工的數據中尋找適合公司的人才特質,例如學歷、學校、主修科目、成績、年齡、性別等,不單節省資源和時間,又能提高生產效率。以上只是個別例子,商業上的應用可以隨幻想飛舞。政治、科學等也開始廣泛應用。

  回到我們的投資本行,電腦投資就是數據開採的一種,舉一個簡單例子,尋找派息5%以上的股票,市盈率低於5倍的股票,利用軟件,按一下就一目了然,這就是採礦了。再複雜一點,可以加入更多的變數(Variable)、組合,然後在指數、股價、時間、盈利、市盈率等等數據礦中篩選和配搭。近年興起的計量基金(Quantitative Fund)大多數是數據開採的獲利者,北美有約4,000億資產由採用量化模式(Quantitative model)的基金管理,佔美國活躍資產管理金額的16%。

  再舉一個例,美國投資名人James Simons的投資旗艦Medallion Fund就是財經數據開採的富翁。James Simons原是大學的數學教授,後來下海用電腦程式投資。他的程式設計團隊不招MBA,招物理學、統計、數學人才,甚至太空科學家。Medallion Fund自1988年成立以來,年平均回報率為45%。

  隨着技術的發展,投資數據開採已不是基金公司或投資銀行的專利,個人投資可以買一套軟件在家自己開採,一間叫Trade Ideas公司的投資軟件提供超過50個變數(Variable)給用者自由組合,在投資數據中掘「金」。使用這軟件要付費,美國一些網絡證券商讓其客戶免費使用這套軟件。

  數據開採目前尚未入流(Mainstream),主要還有兩個障礙。首先是管理人意識跟不上,仍視商業數據為副產品,用後看(Backward Looking)的方式使用,但是目前軟件在即時性和預測性上有很大改進,數據開採其實是新的策略資產、收入來源甚至是新的業務,許多管理人並未意識到。另一個障礙是數據的儲蓄和顯示格式太多太亂,不方便用家,如果用個人電腦的發展作比喻,目前是微軟視窗(Windows)出現前的局面。後面的想像空間,留給讀者開採。

沒有留言:

張貼留言