推廣 熱搜: 2019  互聯網  科技  地坪  PVC  建筑節能  板材  有限公司  機械  包裝 

9月19日鈦媒體訊:作為下一代知識圖譜,事理圖譜有哪些創業投資機會?

   日期:2019-09-19     來源:   鈦媒體    十環網整理   編輯:十環張       瀏覽:104    
核心提示:十環網摘要: 圖片來源@Unsplash 文|鈦資本研究院 隨著阿爾法圍棋(AlphaGo)擊敗人類職業圍棋世界...。
原標題:作為下一代知識圖譜,事理圖譜有哪些創業投資機會?
十環建材網標題:9月19日鈦媒體訊:作為下一代知識圖譜,事理圖譜有哪些創業投資機會?
十環建材網編號:10h1568878216
信息來源:鈦媒體
官方發布時間:2019年09月19日
十環建材網轉發時間:2019-09-19 15:30
今日簡報:
.長沙萬名“星城園丁”上街巡邏,市民可通過APP領巡邏任務;
.《流浪地球》入選全國中小學生推薦觀影片目;
歷史上的今天:
1985年9月19日墨西哥發生強烈地震。
1988年9月19日莊泳為我國奪得首枚奧運游泳獎牌。

==========以下為建材資訊信息正文==========

圖片來源@Unsplash

文|鈦資本研究院

隨著阿爾法圍棋(AlphaGo)擊敗人類職業圍棋世界冠軍李世石,人工智能或將取代人類的討論不絕于耳。但從業內或研究的角度來片,以目前的技術水平,要想實現能取代人類的人工智能系統,還非常困難。

在這點上,美軍的做法比較有借鑒意義,他們的思路不是希望系統取代人,而是用人工智能在感知和認知層面上增強人的能力,實現人機協作。由人進行最終的判斷和決策,機器完成相關的細節收集、整理等方面的工作。

在鈦資本新一代企業級科技投資人投研社第27期,中國科學院軟件研究所研究員、數據地平線(廣州)科技有限公司首席科學家薛云志博士分享了知識圖譜的創業及投資機會,以及從實體相關性跨越到事件邏輯關系后事理圖譜的價值、創業投資機會。

薛云志為中科院軟件所博士、清華大學MBA,ISO/IEC SC42(人工智能國際標準化)專家、人工智能國家重大專項專家組成員、某專家組首席科學家,主要研究方向集中在自然語言處理和知識圖譜。

知識圖譜技術的創業投資機會

所謂事理圖譜,是一個特殊品類的知識圖譜。知識圖譜的創業機會可以分成四個層次:

第一個層次的創業機會是關鍵技術,涉及到數據的清洗、ETL等操作,還有非結構化文本抽取、OCR(尤其是面對一些復雜單據的OCR)、實體鏈接、圖數據庫等關鍵技術。

這個層次的創業,對于創業者而言很容易切入,因為相關的關鍵技術,在過去各個學術機構、研究機構里完成得非常多,很適合技術出身的創業者。此外,現在大多數相關的知識數據都是以非結構化的文檔形式存在,相關需求非常大。

但也有劣勢:第一,面向客戶的技術部門,在大多數企業里是成本中心,所以投入不會特別高;第二,以目前AI技術的發展水平,要想在關鍵技術層面做到非常高的準確率,難度很高;第三,在關鍵技術層面上,不管是做非結構化的抽取還是做單據的處理,每一個場景、客戶的數據,以及對數據后續處理需求都不一樣,所以特別容易陷入定制化的泥潭。

第二個層次的創業機會是數據,除了基本面數據之外,也包括行情數據、另類數據、輿情數據等等。

在這個層次的創業,需求比較廣泛,也比較持續。假如今年采購的技術滿足了需求,明年就一定會按這個需求進行采購。此外,相對容易標準化。再次,一般都是業務部門使用數據,所以也會有一個附帶的優勢,即用戶黏性相對較高。

但也存在劣勢:一個是數據采集時,往往邊際成本不太容易降低,因為每一個數據采集時都需要有基本同樣的投入。比如另類數據里比較典型的電商數據處理,幾乎處理每個新類型數據或新數據源時,要花費的成本相對都比較高;而數據采集的技術門檻相對比較低,競爭者也比較容易進入。

第三個層次的創業機會是知識圖譜產品,包括工商知識圖譜、產業鏈知識圖譜等,現在市面上有不少供應商在提供這樣的產品和服務。

其優勢是相當多的知識圖譜都可以標準化,類似于天眼查的工商數據就是一個很標準化的知識圖譜,而且門檻還挺高。要想再做一個新的,達到現的高度還不那么容易;另一個就是可以嵌入到用戶的工作流程當中,用戶一旦采用后的再更換成本相對較高。

劣勢首先就在于這不是一個特別直接的業務場景,一般都需要經由某個應用產品來體現。其次是以目前的技術發展水平而言,要保證高度的覆蓋率、準確率,成本就會快速上升。

第四個層次的創業機會是應用場景類產品或服務,包括兩類:舊場景的優化,以及知識圖譜所能賦能的新場景。

這四個層次的創業機會,從價值上來講,是從下往上逐步提升的:關鍵技術雖然說很重要,但它的價值溢價最低;應用場景類相對較難,但如果能尋找到一個新場景,它的價值溢價應該最高。

當然從適合的玩家來講,越往下的技術越適合大玩家大平臺,比如阿里云、騰訊云都部署了很多類似的服務,做非結構化文本提取且應用的比較成功;初創企業當然也可以做這類應用,但往往比較困難。

對于小企業、小玩家而言,最合適的切入點應該是場景類,場景一般都直接面向業務,所以技術價值可以充分體現,而且這些場景業務更換成本相對比較高,用戶黏性也高。只是要尋找到合適的場景,需要對業務有更深刻的理解。

從以上的幾個層面來分析,數據和應用場景類創業最容易,當然在關鍵技術和知識圖譜產品領域創業或投資未嘗不是一個好選擇。在場景方面,可以做哪些事?

上圖列了17個場景,涵蓋了現在知識圖譜在泛金融領域大多數的應用。其中舊場景優化包括傳統數據終端的增強、知識庫以及搜索、問答,還有信貸的很多操作。之所以說是舊場景的優化,是因為過去采用關系數據庫一直在做相關工作,只不過沒有知識圖譜的大規模數據關聯能力強。

新場景是從2015年開始才逐步發展起來,甚至絕大多數場景現在還處在相對較早期階段。現在已經有很多公司在做自動化的審核、合規性的審查等工作,但是針對金融文檔的復雜性還是起步階段。

此外,金融文檔包括生成、監管、風控等都有很多探索性的工作,遠沒有到能夠出現壟斷性的產品或者一系列產品的出現。而恰恰在這些新場景里,有泛金融應用領域相對比較核心的業務,所以如果能有效解決這些場景中的需求,應用場景價值就相對較高。

將知識圖譜技術應用于金融場景時需要考慮哪些問題?

一個是有很多人會把知識圖譜的“圖”用于講故事,但用戶其實并不需要了解知識圖譜本身,也不會在實際使用時對著“圖”查、拽、看,需要的是知識圖譜所能帶來的能力。所以設計一個場景或產品時,并不需要把知識圖譜本身顯示出來,而是要看知識圖譜能給產品賦予何種能力。

另一個是以目前的技術發展水平而言,知識圖譜準確率無法達到100%,也就是知識圖譜數據抽取的準確率、實體鏈接的準確率、推理的準確率等都無法達到100%。如果場景對準確率有非常高的要求,可能就很難推進下去。所以設計的應用場景或者產品,需要對知識圖譜的準確率有一定的容忍性。

知識圖譜與事理圖譜

在這幾年知識圖譜又開始火熱起來,大多人認為知識圖譜是解決從感知智能到認知智能的一個基礎性工具,到最后是否能夠落到實處,還是要看研究的進展。

那么什么是知識圖譜?

知識圖譜是由本體(Ontology)作為Schema層,與RDF數據模型兼容的結構化數據集。簡單理解就是把各個知識點串聯起來的一張圖。知識圖譜不是一個新概念,從上世紀70年代開始,經過語義網及網絡等等一系列的概念,在2012年5月由Google引入的,主要目標是為解決搜索關聯性的問題。

基于RDF的知識圖譜表示(北京大學鄒磊)

上圖是典型基于RDF的知識圖譜表示,所描述的是關于美國建國時的知識點,比如美國的首都在哪里、有哪幾位總統、總統有哪些特征等。這張圖有一個非常明顯的特征,就是每個節點都是一個名詞,名詞和名詞之間是線上寫的關系,這是到目前為止所有主流的知識圖譜非常顯著的一個特征。

DARPA(Defense Advanced Research Projects Agency,美國國防高級研究計劃局)把一般理解的數據、智囊等等從下到上分五個層面:

  • 第一個層面是數據,原始的信號或激勵;
  • 第二個層面是信息,就是事實類的問題,如什么、誰等等;
  • 第三個層面是知識,相關性和組合性,回答How的問題;
    歐式復古客廳裝修3D模型效果圖
    歐式復古客廳裝修3D模型效果圖
  • 第四個層面是理解,回答為什么的問題;
  • 第五個層面是智慧,主要是人做的判斷和決策,機器主要做下面四個層面。

從學術角度或數據理解的角度來講,知識圖譜解決了全部信息類的問題,就是那些事實類的問題。另外知識點之間的關聯,名詞之間的關聯可以解決一部分組合性和相關性的問題,比如從圖上可以推理出來林肯和霍金維爾市關系等。

過去可能有一些知識沒有直接表達,但是可以借助一些網絡之間的推理關系、連接關系推理得出,所以知識圖譜從信息的角度來講,是全部的信息加上一部分的知識。

知識圖譜的主要應用體現在幾個方面:第一,推薦任務,像經常使用的搜索引擎及類似于今日頭條內容性的搜索都是推薦類的任務;第二,風控任務,包括金融授信模型、反恐還有情報領域的危險識別,比如美國的Palantir公司用知識圖譜識別本拉登的線索,都屬于風控任務;第三,知識管理類的任務,如問答、客服等等;第四,知識發現類任務。

知識

圖譜沒能解決什么問題呢?

其實在很多領域都會看到與邏輯有關的問題,比如在金融投資領域對事件的邏輯關系進行推理、推演、預測等需求,同時在軍事、反恐、情報、輿情領域也都有相關需求。

也就是說,從DARPA的五個層次來分,主要是知識類和理解類的問題沒有解決。

在人思考問題時,會看到各種“如果”“因為”,在研究問題或表達想法時用的也都是各種邏輯,這些邏輯基于名詞的知識圖譜是非常難以表達的。再回到看17個場景中,有大量“如果…”“就…”,即使用大量邏輯來表達知識庫,例如金融產品、精準營銷以及新場景中的自動化審核、審查、審計、風控、監管、投資研究等都與邏輯密切相關。

事理圖譜試圖刻畫原來知識圖譜沒有辦法解決的這些邏輯。從技術角度,希望能夠從實體的相關性跨越到事件邏輯關系上。上圖左側就是知識圖譜,右側是完全不同的一張圖,就是事理圖譜,兩者之間非常顯著的區別表現在兩點:第一,各個節點不再是名詞而是一個事件;第二,每個邊上都是事件之間的邏輯關系

舉個例子,上圖左側是關于降準事件的因果子圖,右側是關于出行事件順承的子圖,所謂順承就是有先后順序,從出行開始都會有哪些可能的動作,每個動作接下來的動作會用圖譜完整的刻畫出來,這兩張圖譜都是用自然語言處理技術從文本當中自動抽取出來的。

事理圖譜表達的是事件和事件之間的關系。首先定義一下事件是什么。這里采用ACE的定義,事件是發生在某個特定時間點或時間段、某個特定地域范圍內,由一個或者多個角色參與的一個或者多個動作組成的事情或者狀態的改變。

根據事件之間的關系劃分,可以把事理劃分為幾類。一類是因果事理,占據了描述邏輯的80%左右,形式都是A導致B。除此之外,還包括條件、反轉、順承、上下位等類事理,每種都是人經常會使用的邏輯模式。

事例圖譜怎么構建出來呢?從總體大的流程可以分兩大類:一類是手工構建,好處是相對比較準確,但是壞處也是顯而易見的;另一類是用自動化的方式構建。

上圖是流程示意圖。從各種研究報告、財務報告、公告、新聞資訊中提取出來語料,經過一定的數據清洗、預處理后做事件識別,再做相關關系的屬性抽取。還要做融合與對齊,就是一個事件不同的人會有不同的表達方式,要找出這些不同的表達方式,再融合成同一個表達方式。

結果還要做分層泛化和存儲,分層主要指的是要把事件逐層的做抽象,比如范冰冰陰陽合同事件,如果直接存儲將導致后續難以使用,但是泛化分層可以把相關的主體、客體和相關的主要要素分層,可以把范冰冰泛化成明星、再泛化成名人,而對于陰陽合同可以逐層泛化成偷稅漏稅、負面事件等等,最后再做成一個比較完整的事理圖譜。

上圖是整個過程,左上角是起點,就是范冰冰陰陽合同事件發生時的一個新聞,先識別出主要句子,再把主要句子經過一系列技術流程,逐步轉變成右上角一系列結構化的數據,這就是事件抽取的過程。當然在事件抽取出來后,還會再形成很大的一張網絡。

在之前的工作當中,已經做出一個面向二級市場的金融領域事理圖譜,現在這個事件數量接近一千萬而且每天都在增長,在國內算是規模最大的一個金融事理圖譜結構。

事理圖譜對應用場景賦能的基礎,從技術上提供了可供檢索、推理、推演、預測的事件上下文。在過去沒有事件上下文進行推理時,帶入了很多先入為主的處理,難以規模化也無法自動化,所以事理圖譜能夠提供一個讓邏輯能表達出來的基礎,從而讓很多依賴邏輯的事件可自動化、智能化。

像銀行降準因果圖譜和出行的順承圖譜,可以很自然的做事件之間的邏輯關系,比如銀行進行降準可能會有什么后果,直接從降準圖譜中查找即可,對推測事件之間的影響會比基于知識圖譜方式來要直接、自然。

基于此圖,還可以做原因的查找,比如發現貼現率下行的可能原因。也可以試圖確定兩個事件之間是不是有關系,比如降準和乘車費用增加之間的關系。從直觀來看,事理圖譜能提供一個邏輯推理的框架和基礎,這是過去其它的技術所不具備的能力。

金融事理圖譜的應用方向

第一,研究邏輯的智能管理。主要指的是把研究員和分析師頭腦當中的分析邏輯表達出來。解決了研究機構現在的一大痛點,就是研究員、分析師走了,形成的研究邏輯就會被帶走,所以一大訴求就是要把研究員、分析師的知識能夠積累下來。

對研究員而言,也會涉及到用自己的分析邏輯做驗證、更新,同時還要以自己的視角對海量的數據和資訊做智能的組織和分析,把現在每天看各種各樣研究報告或數據的現狀變成行為自動化。

研究邏輯智能管理工具是根據金融事理圖譜開發的,上圖是基本形態。它主要是以人為主,不是試圖從幾千萬的研究報告、公告或者新聞資訊里完全構建一個準確的邏輯,其設計目標就是研究員做驗證或更新的分析邏輯過程中,如何自動化的提供各種輔助。

當研究員指定一個事件或邏輯時,能在整個圖譜里查找指定的前因后果,同時也對整個歷史性數據做實證、驗證,當然還會把相關的資訊和數據都鏈接在一起,為研究員提供預警和實時監控的功能。

第二,面向金融文檔的深度智能核查和智能審計。現在很多券商、投行都已經在做完整的智能核查,比如IPO的招股說明書,就有券商、初創公司在做,但是整個核查的邏輯都是相對比較淺層和表面的,如果這個邏輯需要比較深入且相對比較多,那怎么才能把這些邏輯表達給機器呢?

由程序員一個個都編碼出來很不現實。如果能夠讓負責核查、審計的人,像研究邏輯的智能管理一樣,能夠把自己的核查邏輯表達出來,實現到自動化的核查和審計工具中,就是一個非常好的深度核查、審計能力。

第三,公司債券風險的自動梳理。假如可以把公司債券都有哪些風險自動梳理出來,基于這些邏輯、風險的表現,就可以進一步的組織對各個公司的債券做風險管控。

第四,行業經營風險點的自動梳理。每個行業的經營風險都是各種各樣的,究竟行業有哪些風險,只有在行業內摸爬滾打多年的資深從業人士可能才能摸得清楚,但也未必全面;所以在沒有完整的行業風險表現時,要對行業的經營狀況做評估、風險管控時,就比較麻煩,無法自動化而只能依賴人。所以如果能夠用事理圖譜把相關的風險梳理出來,也會對這類應用提供一個基礎的數據能力。

第五,企業風險的智能化監控。現在也有風控類的產品,只能在實際導致風險的事件發生后才能監控到。如果能夠借助風險事理圖譜做推理,就可以在導致風險直接原因發生時或之前去看,可以更早、更快發現風險,挖掘的也更深入,這是與現有風控產品最大的不同。

第六,事件演化追蹤與分析。像川煤債券的違約事件,前后過程都可以用事理圖譜的技術梳理出來,而且是梳理所有相關的事件,而人在關注時只能關注很有限的層面。

第七,智能問答。這是相對比較通用的場景,但基于事理圖譜可以實現更直接、更高效率和質量的回答。比如看到環保督查時要關注的點,因為環保督查這類事情已經被分析得很透徹了,能把邏輯整理出來,基于事理圖譜做一個順承關系,就可以為更廣泛的用戶區提供服務。

第八,服務或產品的預測性推薦,與精準營銷相關。到現在為止的推薦基本上都是基于相關性,比如在搜索引擎或電商看到的推薦,買了一個商品后被推送類似商品,今日頭條被詬病的信息繭房——看過信息被推送同類型信息。那有沒有可能在用戶做了一個動作時,就預測未來還會做哪些動作呢?

相應的提供預測性推薦。比如用戶說“麗江是個好地方,我想去看看”,如果基于相關性,推薦的一定是與麗江本身相關,但基于事理圖譜就可以從去麗江這個事件節點出發,可以看到可能的操作,比如買去麗江的臥鋪票、提供逛昆明的出行指南,類似很多這些事情都可以從這句話開始做推薦。很多相關的金融服務跟產品都可以基于事理圖譜做預測性推薦,進一步實現更精準的營

自然風景美麗的楓樹林小路
銷。

總之,現在面向金融行業的事理圖譜是所有邏輯類應用場景能落地的一個場景。知識圖譜描述的這些知識是一個本質的外圍實體,研究對象是彼此之間的屬性關系,事理圖譜描述的更像是一個邏輯社會,研究的對象更多是這些事件及內在外在的聯系。

簡單來說在應用上知識圖譜可以回答When、Who、What、Where等等常識的問題,事理圖譜就可以回答Why、How等動態的問題。

事理圖譜可以承載很多:一,可以承載金融產品或服務內在的邏輯表達,不僅是名詞的羅列,可以把內在的邏輯關系用事理圖譜表達出來;

二,可以把金融機構內部的運作知識進行提煉和存儲,類似于研究員、分析師的研究邏輯或審計、合規邏輯,都可以提煉存儲;

三,對金融事件的抽取和影響進行自動化監測分析,像利潤的增長有哪些原因構成等微觀經濟規律,都可以可視化、形式化組織出來;

四,還可以承載海量數據和資訊的邏輯化組織與分析。

到今天為止,研究員、分析師、一線經理、風控人員,都是直接面對各種數據、研究報告、行業新聞和政策、公司公告等,這些如果能夠用事理圖譜按人的邏輯組織起來,將具有非常大的好處。在一些對邏輯要求非常高的金融新場景以及舊場景的優化上,能夠對邏輯類的應用場景產生比較關鍵的價值,而恰恰這些場景是現在金融機構的核心業務之一。

在金融AI領域投資要注意幾點:

一,賽道與團隊。

金融機構內部人員出來創業的團隊大多是銷售牽引型團隊,更多表現是市場能力比較強;另一類是技術引導型的團隊。兩者并沒有好壞之分,而是要根據每個團隊所面向的市場基礎、產業規模及市場成長性來看,有些新場景在過去根本沒有出現過,又或者現在整個市場都沒有特別好的供應商,這時的銷售能力是否一定就非常重要?這可能也是因時因地而異,所以還是要看每個團隊所面向的賽道。

二,是市場型創業團隊還是技術型創業團隊。

它們之間巨大的區別就是市場型團隊知道需求,技術型創業團隊往往對業務理解的沒那么深刻。所以要在Fintech做一個好的投資或創業,不但技術要強,還要能滿足眼下和未來長期的需求,具備不斷演化的能力,同時還得對客戶的業務非常理解才能促進落地,否則就會變成技術型創業團隊搞定制化、市場型創業團隊搞項目,意義都不大,最好做綜合型、既有技術又能又理解業務需求的標準化產品。

三,情懷和價值。

在現在整個經濟的情況下,究竟是要做一個事業還是要掙錢?能否持續的運轉下去,不僅要關注短期的項目落地,還要關注短期的業務需求是否能對接成功,產品是否可以標準化;同時還要關注業務和技術的長期發展,能夠為原有的場景帶來什么機會,能否開創出更加不同的新場景,變成另一個事業,所以應該是長短期并重的態度。

當然最后投與不投,還是每個投資機構要根據自身的團隊,進行思考和決策。

未來三到五年,在NLP、知識圖譜或者事理圖譜的領域,仍然是一個發展的黃金期,結合行業的研究與應用的落地,應該會比較偏向以下幾方面:

第一,將知識與常識引入目前用技術構建的數據學習系統中;

第二,在上下文建模、多輪語義理解中,更多的引入事理圖譜的衍生場景應用;

第三,常見知識和常識之間的邏輯事理關系的延伸,也會被應用在未來的NLP或者知識圖譜、事理圖譜技術支撐當中。

鈦資本研究院觀察

事理圖譜(Event Evolution Graph或Event Logic Graph)是近年來興起的一個知識圖譜新方向。事理圖譜是在知識圖譜的基礎上,對知識和信息之間的邏輯進行深刻的刻畫。事理圖譜又與時間和空間相關,事件隨時空不斷演化的規模和模式,對人類社會來說具有重大價值。

事理圖譜更能刻畫人類行為邏輯,深層次揭示社會發展變化的規模。作為下一代知識圖譜,或是知識圖譜的重要分支,事理圖譜對于強人工智能具有著重要的意義。

事理圖譜是事理邏輯知識庫,描述了事件之間的順承、因果、條件和上下文等事理邏輯關系,事理圖譜中的事件是具有一定程度抽象的泛化事件。

事理圖譜的研究,主要從大規模無結構化文數據中自動抽取邏輯知識并組成一定結構的圖形,用以描述事件之間的深化規模和模式。相對知識圖譜,事理圖譜更突出“意圖”。特別是在搜索等任務中,知識圖譜往往難以體現搜索者對搜索方向的意圖,而無法實現精準搜索;而基于事理圖譜的搜索,就能極大提高搜索的效率和準確性。

當前,隨著人工智能和機器學習技術的發展,知識圖譜及其應用已經進入商用規模化發展階段,對事理圖譜的研究和應用則呼之欲出。顯然,事理圖譜是對知識圖譜的增強和改進。

當然,事理圖譜的刻畫更為不易,不僅要刻畫事件本身還要找到事件之間的邏輯關系,以及隨時間和空間演進的變化關系,如何讓機器可以自動抽取出好而實用的事理圖譜,是下一步研究和創業的重要方向,也值得創業投資機構密切關注。

【鈦媒體作者介紹:鈦資本是專注于企業級科技的投資銀行和管理咨詢服務平臺。微信公號:tmtcapital】

更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App

 
打賞
 
更多>同類資訊

推薦圖文
推薦資訊
點擊排行
熱門主題:
資訊詞庫     2019 2018 資訊 國內 化工 塑料 產品 家居 市場 行業 涂料 動態 價格 中國 地板 政策 玻璃 環保 法規 能源 產業 公司 衛浴 國際 智能 建筑 管材 項目 全球
詞庫分頁     [1-2000]    [2001-4000]    [4001-6000]    [6001-8000]    [8001-10000]    [10001-12000]    [12001-14000]    [14001-16000]    [16001-18000]
[18001-20000]    [20001-22000]    [22001-24000]    [24001-260000]    [26001-28000]    [28001-30000]    [30001-32300]
 
網站首頁  |  展會合作  |  認可標志  |  登錄|注銷  |  關于我們  |  常見問題  |  使用協議  |  版權隱私  |  | 網站地圖 | 排名推廣 | 廣告服務 | 積分換禮 | 網站留言 | RSS訂閱
广东快乐十分计划软件手机版