論文發表網站耀炎論文網-歡迎廣大職稱論文發表的作者在本網站雜志投稿!
論文網

 論文發表聯系我們

論文范文 李編輯
聯系微信:3456663429
免費電話:加QQ/微信可知
 當前位置:主頁 > 論文范文參考 > 科技論文 > 企業級多源異構地理信息檢索引擎的設計與開發

企業級多源異構地理信息檢索引擎的設計與開發

發布時間:2019年09月22日 09:08:54    文章來源:耀炎論文網    作者:鄧世軍 周澤兵 熊鑫    閱讀:

導讀:這是一篇完整優秀的關于科技論文范文,這一篇論文共有3642字符,本篇題目是關于“企業級多源異構地理信息檢索引擎的設計與開發”的。研究成果已應用于天津市勘察院數據資源平臺,滿足企業的數據資源檢索應用。

論文發表找李編輯【QQ/微信:3456663429】版面費低,出刊快!

摘 要:該文針對企業信息服務平臺數據特點,分析建設多源異構地理信息檢索的應用需求,設計開發一種通用的多源異構多維地理空間搜索引擎,研究了存儲結構與存儲方式,開發插件式的索引引擎,實現可擴展、可定制的多應用查詢引擎。研究成果已應用于天津市勘察院數據資源平臺,滿足企業的數據資源檢索應用。

關鍵詞:多源異構 地理信息檢索 數據資源

中圖分類號:TP3 文獻標識碼:A 文章編號:1672-3791(2019)07(a)-0016-03

智慧城市、大數據、物聯網等技術的迅猛發展,對社會方方面面帶來了巨大的影響和變革。數據正以一種前所未有的速度產生與積累。為提高管理水平,促進信息的充分利用,政府、企業都在積極構建面向應用的數據服務平臺。這些數據服務平臺中所管理的數據有企業、政府自身積累的,也有來源于其他單位、部門的數據,還有來源于互聯網的數據。這些數據具有來源復雜、坐標系統不統一、存儲方式格式不易轉換統一存儲、業務類別不同、數據量大、動態變化的特征。為提高數據的價值,這些數據往往與地理空間位置進行了綁定。在這些海量、復雜且基于地理空間位置的數據中,如何快速定位、查找感興趣、所需的內容,是企業級數據服務應用平臺需要解決的關鍵問題。

1 信息檢索引擎應用需求分析

實現多源信息快速定位,精準查詢,核心要對海量數據進行有效的梳理,形成核心信息提取,就是信息的索引。對一個數據集做“索引”,是為了提高對這個數據集檢索的效率。書的“目錄”就是這本書內容的“索引”,當我們拿到一本新書,想查看感興趣內容的時候,我們會先查看目錄,確定感興趣的內容會在哪些頁里,直接翻到那些頁。單純的空間數據現在在各大數據庫有較成熟的空間索引機制,單純的文字、屬性信息也可采用分詞進行索引,但缺少同時對數據資源進行空間、屬性和附屬資源的關聯索引,造成信息檢索出太多干擾內容,需要大量人力進行不斷篩選才能找到有用信息。

現有數據庫系統、空間搜索引擎、文本搜索引擎無法滿足應用需求:數據資源共享時,用戶檢索快速精準查詢需求;綜合分析利用平臺的構建時,如出具編制咨詢報告時,需要利用各種數據資源,對信息高效組織申請的需求。

2 多源異構可擴展、插件式地理空間搜索引擎設計

構建一種通用的可擴展、插件式地理空間搜索引擎,開發滿足不同數據來源、數據格式與數據存儲方式的數據解析引擎插件庫,建立空間位置與文本、時間等多維信息的統一索引結構,構建多維、地理空間信息統一查詢服務接口,實現基于地理空間位置的復雜多源數據的統一搜索與查詢,為企業級數據服務應用平臺提供標準化、統一化的服務。

2.1 總體結構圖設計

該研究設計了一種通用的多源異構多維地理空間搜索引擎(邏輯結構圖見圖1),可以對來源多樣(如Oracle數據庫數據、ArcGIS SDE空間數據、ShapeFile數據、Word文檔數據、PDF文檔數據等)的結構化與非結構化數據進行索引,并對帶有地理位置信息的數據基于WGS-84地理坐標系統存儲了經緯度信息,實現了基于地理空間位置的復雜多源數據的統一搜索與查詢,通過WebAPI提供統一的Web接口服務。可定制的查詢模板接口:按用戶類別,按應用需求類別,按數據類別;統一查詢接口,實現各種跨資源跨數據庫統一檢索的同時,可以實現各種按需求的定制,滿足不同用戶的需求。
 

企業級多源異構地理信息檢索引擎的設計與開發

2.2 索引結構基于R-tree的混合索引模型

全文檢索信息包括地名、項目、報告成果、圖件、點位、文檔,不同的應用場景,單一的文檔目錄結構模型無法滿足應用的需求。

(1)建立R-tree多級混合索引:索引庫相當于所有數據的一個字典表,將多源異構數據中的部分信息提取出來進行重新組織,使其變得具有一定的結構,然后對這些有一定結構的數據進行搜索,達到快速搜索的目的。根據檢索需求,將數據名稱、唯一標識、空間位置信息、索引內容這4個字段作為索引庫的必要結構字段。建立R-tree包含報告、圖件、地圖多級結構模型,提升索引的效率、精確度。滿足不同的應用需求。

(2)空間坐標統一處理:在進行空間范圍查詢時,由于實際使用中各類空間數據采用的坐標系統不一致,有地方坐標、WGS-84、局部坐標系等,為滿足跨坐標系的空間范圍數據查詢,對于空間位置信息的索引存儲,采用WGS-84地理坐標系統作為全球化的空間索引坐標系統,自動映射,為方便手機等終端定位的應用要求。

2.3 動態掃描數據更新機制:生產軟件平臺、互聯網動態更新機制

由于源數據內容會發生變化,為保證數據的及時有效性,索引引擎還需實現對已有索引庫的更新操作。通過定期掃描源數據,對發生變化的數據項進行索引更新,對已經刪除的數據進行索引刪除,對新增的數據重新加到索引庫。

2.4 插件式的索引引擎

索引引擎的功能是從多源異構源數據中,提取數據唯一標識、數據名稱、關鍵詞、空間位置、摘要等信息,根據一定的相關度算法進行大量復雜計算,得到每項數據中每一個關鍵詞的相關度,然后根據這些相關信息建立索引數據庫。內置支持采用可擴展的索引引擎結構接口方式設計,采用XML配置,動態加載反射,擴展點包括數據驅動類型、數據結構類型、數據。

(1)由于源數據是多源異構的,需要設計統一的接口標準,用于從不同的數據中提取有用信息,通過反射機制構建插件式的索引引擎,實現索引庫的構建。該研究中將內置包括Oracle數據、ArcSDE數據、Shapefile數據、Word數據、文件系統數據在內的索引引擎。

(2)對于包含空間范圍的源數據,其空間位置信息按照WGS84坐標的經緯度信息進行存儲,對于數據量少的查詢,可以采用簡單的數字范圍存儲即可,但是對于達到100萬級別的數據應該建立空間索引金字塔,使得空間查詢效率得到提升。

2.5 分布式索引

由于數據保密管理需要,不能進行集中存儲的訪問,對于多個主機的數據采用主從結構的模式進行。

3 實現可擴展、可定制的多應用查詢引擎

應用查詢引擎的功能是針對用戶的查詢請求在索引庫中快速檢出數據,采用一定的信息檢索模型進行數據與查詢關鍵字的相關度分析,對將要輸出的結果進行排序。信息檢索模型有以下幾種:布爾邏輯模型、模糊邏輯模型及混合模型等。

查詢引擎的工作過程如下:

(1)對用戶接口提出的查詢請求進行遞歸分析,接口語法采用Json字符串進行傳遞,json串中包含contains、shoulds、exclusive、sort這4個數組進行查詢請求。

(2)查詢引擎將傳遞的查詢請求解析成邏輯操作符AND、OR、NOT,使用“+、-”連接號和通配符,使用逗號、括號或引號進行詞組查找。

(3)對于每個索引項,匹配索引文件,并對所有查找出的文檔進行集合運算,將結果集按照基于內容和基于鏈接分析的方法進行相關度評價并排序,最大限度地保證檢索出的結果與用戶查詢串有很高的相關性,將最終形成的有序的文檔結果集合返回給用戶。

4 成果應用

該研究成果已經應用于天津市勘察院數據資源平臺中,平臺數據包括天津市電子地圖、勘察院歷年工程項目、天津市工程地質、天津市潛水觀測、天津市地形圖、天津市影像圖、天津市基礎地質圖件等內容,并為全院職工提供在線的數據資源檢索、瀏覽服務,大大方便了技術人員查詢各類技術成果、文檔的速度,提升了工作效率(見圖2)。

5 性能分析

該系統采用C#,Windows Server 2012,在2臺配置的服務器上進行部署,數據內容包括工程項目信息,以及建設用地數據、地名地址數據、圖件等各類數據資源,要素級對象達千萬條,經測試,結果如圖3所示。

6 結語

該文以構建企業數據共享與服務平臺為應用目標,研究了地理信息為核心的多源異構統一框架、可擴展、可定制檢索引擎的設計與開發,很好地解決了各種異構數據的統一共享服務的問題,能夠滿足大型企業數據生產管理的需要,具有很好的推廣應用價值。

參考文獻

[1] 何榮杰.基于Lucene的全文搜索引擎的研究與實現[D].江蘇科技大學,2015.

[2] 張曉勇.基于多源異構數據融合的概念層次體系構建及其應用研究[D].南京理工大學,2016.

[3] 張書瑜,張定祥,王榮彬,等.多源異構土地基礎數據一體化管理檢索方法研究[J].浙江大學學報:理學版,2018(5):11.

[4] 王志寶,夏昊,王成波.地理信息檢索關鍵技術研究綜述[J].計算機工程與科學,2018(3):533-543.

 

本文來源:http://www.jnzhgk.com/keji-lunwen/1410.html

 

版權聲明:以上文章中所選用的圖片及文字來源于網絡以及用戶投稿,由于未聯系到知識產權人或未發現有關知識產權的登記,如有知識產權人并不愿意我們使用,如果有侵權請立即聯系:3456663429@qq.com,我們立即下架或刪除。

 

 

QQ在線編輯

  • 在線咨詢
  • 論文發表

服務熱線

展開
色欲香天天综合网站