「大數據」的最大敵人是「造謠者」

自互聯網面世,數據及知識工程(data and knowledge engineering)的研究日趨重要。互聯網巨企谷歌公司提出「數據是皇者」的理念,認為網上數據能充分反映社會及市場的動態。若然用戶能夠好好分析這些數據便能早着先機、運籌在握。近年,隨着雲計算的普及,互聯網業界正面臨「大數據」的挑戰。「大數據」並非新鮮事,相關例子在日常生活隨處可見,例如全球各財務機構每秒中處理一萬宗以上的信用卡交易;美國沃爾瑪公司每小時處理超過一百萬個用戶交易;全球超過五百萬人利用智能移動電話通話、上網、發短信、玩網遊等。

上述應用所產生的數據共用具有大量、常變及多樣化的特點,這正是專家針對「大數據」而所定義的3V:

一、大量(Volume):網上數據量龐大,與日俱增,資訊科技專家認為互聯網的數據量於未來十年將增長五十倍以上,估計將會超過「堯字節」(yottabytes,YB,24 位數目)之數量,要及時處理如此海量的數據非現有技術所能及。例如全球Twitter 用戶每秒中發出約四千條Tweets 短信,若每條資訊含一百字,即每秒四十萬字,每日約三百五十億字。要及時有效處理如此大量的「大數據」,絕非現有傳統數據服務所能及。

二、常變(Velocity):今天互聯網不單連結人, 也連結物, 如把提供不同功能的遙感器(sensors)連結組成物聯網。遙感器的數據更新率常以毫秒計,如此迅速的更新率再加上系統要同時間處理多個遙感器,常變使分析「大數據」難上加難。

三、多樣(Variety) : 以社交網站臉書(FB)為例,據公司九月份的報道FB 網站每月使用量已超越十億人次,而在通訊中送出的資訊不局限於文字,往往也夾雜了數字、圖片、音樂、錄像等多媒體資訊,還包括有朋友與朋友之間的關係圖及描述資料的其他元數據(metadata)。

數據分布不夠隨機

網上數據分析主要採用統計方法,例如利用數據挖掘(data mining)方法從互聯網尋找出數據熱點(hotspots)及數據趨勢(trends),再深入探討; 又例如利用迴歸分析(regressionanalysis)來發掘數據之間的特定關係,為用戶提供「商務智能」(Business Intelligence, BI) 及「市場智能」(Market Intelligence, MI)等具策略性的知識型服務(Knowledge-base Services)。

統計應用建基於數據,而其精確度與數據的質量息息相關。正因如此, 「大數據」分析面對不少技術問題。首先,若然分析數據不足或缺乏全面性,分析結果難免會以偏概全,欠缺代表性。導致這情況的原因之一是網上數據分布不夠隨機, 令數據抽樣(sampling) 出現偏斜(biased)。除了技術問題之外,人為數據對統計結果的影響更加嚴重。統計學主要計算某事件,可以是數據、數據之間的關係或數據發展趨勢等出現的機會率,可是互聯網中有不少非法之徒,故意大量製造虛假資料(事件),企圖混淆大眾視聽,操控統計結果。這情況在商界及政界尤其普遍,企業及政黨聘請專業「槍手」在社交網絡中滲透自己的理念,影響輿論,變相進行網上「洗腦」。

總括而言, 「大數據」必然是IT 產業的發展趨勢。若然我們不能杜絕缺德的「造謠者」,無論分析技術如何先進及精確,我們仍會被誤導,因為「謊言說一千遍便變成真理」。

香港中文大學工程學院副院長(外務)

黃錦輝教授

原載︰大公報 | 2012-12-07

Recent Events

Start typing and press Enter to search