近日,庖丁科技中標證券期貨業(yè)金融科技研究發(fā)展中心(深圳)(以下簡稱“深交所”)——“證券文本信息抽取技術(shù)研究”項目,以證券市場文本信息為對象,研究利用自然語言處理技術(shù),從披露公告中抽取指定的文本信息,并且滿足具有一定技術(shù)性能指標要求的課題。
AIOi1i+iDvei1hOacrOW4guWcuuWJjee6v+ebkeeuoQ=="/>
資本市場上,信息披露作為法規(guī),通常要求信息披露義務(wù)人“應(yīng)當真實、準確、完整、及時地披露信息”。我國上市公司信息披露的內(nèi)容大體可分為三類:證券發(fā)行文件、定期報告和臨時報告。
上市公司的公告信息披露必須在指定信息披露網(wǎng)站發(fā)布,主要為PDF格式。以深市上市公司為例,2016年全年共披露265985篇公告,2017年共披露291607篇,隨著上市公司數(shù)量日益增多,這一數(shù)字也會逐年增加,不但為深交所的合規(guī)檢查帶來壓力,也給投資者帶來極大的信息負載。如何將海量公告更有效、更高效地讓閱讀人“讀薄”?其中通過自然語言處理、深度學(xué)習(xí)等技術(shù)將公告信息結(jié)構(gòu)化提取成為關(guān)鍵所在。
庖丁科技透露,現(xiàn)正在持續(xù)而堅定地推進該項工作:首先通過卷積神經(jīng)網(wǎng)絡(luò)對公告中的段落表格等信息進行分割抽取。為了適應(yīng)樣本數(shù)量稀少的問題,他們還提出了一種輕量級的機器學(xué)習(xí)方法。該方法能夠高效地將不同類別公告的關(guān)鍵語句抽取出來,并使之具有在線學(xué)習(xí)的能力,抽取過程僅需公告制作業(yè)務(wù)專家對少量公告進行標注,即可達到可用效果。關(guān)鍵語句抽取后,再通過LSTM神經(jīng)網(wǎng)絡(luò)進行細粒度提取,從而將公告結(jié)構(gòu)化。目前,庖丁科技對并購重組公告的結(jié)構(gòu)化抽取的工作已取得較為理想的結(jié)果,提升了深交所監(jiān)管工作的效率。這項工作的探索不僅為擴展更多公告類型奠定基礎(chǔ),也為其他類型文本處理帶來了寶貴經(jīng)驗。
“利用非結(jié)構(gòu)化信息抽取技術(shù),我們能夠把隱藏在海量公開公告中企業(yè)與企業(yè)、企業(yè)與個人關(guān)系進行深度挖掘,并且透視、洞察企業(yè)的價值及風(fēng)險。作為國內(nèi)擁有世界領(lǐng)先的金融文本信息抽取技術(shù)、有能力利用深度學(xué)習(xí)和金融知識庫進行高精度的結(jié)構(gòu)化信息提取的先進團體。”庖丁科技表示,未來將繼續(xù)全力服務(wù)金融行業(yè),助力金融機構(gòu)進一步提升服務(wù)實體經(jīng)濟的能力。
- 為什么年輕人不愛換手機了
- 柔宇科技未履行金額近億元被曝已6個月發(fā)不出工資
- 柔宇科技被曝已6個月發(fā)不出工資 公司回應(yīng)欠薪有補償方案
- 第六座“綠動未來”環(huán)保公益圖書館落地貴州山區(qū)小學(xué)
- 窺見“新紀元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機打造全新一代屏幕壓感
- 清潔家電新老玩家市場定位清晰,攜手共進,核心技術(shù)決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。