ISSN 1009-6248CN 61-1149/P 双月刊

主管单位:中国地质调查局

主办单位:中国地质调查局西安地质调查中心
中国地质学会

    • 中文核心期刊
    • CSCD收录期刊
    • 中国科技核心期刊
    • Scopus收录期刊
高级检索

非结构化地质数据内容存储方法研究

魏东琦, 江宝得, 张静雅

魏东琦, 江宝得, 张静雅. 非结构化地质数据内容存储方法研究[J]. 西北地质, 2021, 54(4): 266-273. DOI: 10.19751/j.cnki.61-1149/p.2021.04.022
引用本文: 魏东琦, 江宝得, 张静雅. 非结构化地质数据内容存储方法研究[J]. 西北地质, 2021, 54(4): 266-273. DOI: 10.19751/j.cnki.61-1149/p.2021.04.022
WEI Dongqi, JIANG Baode, ZHANG Jingya. Research on Content Storage Method of Unstructured Geological Data[J]. Northwestern Geology, 2021, 54(4): 266-273. DOI: 10.19751/j.cnki.61-1149/p.2021.04.022
Citation: WEI Dongqi, JIANG Baode, ZHANG Jingya. Research on Content Storage Method of Unstructured Geological Data[J]. Northwestern Geology, 2021, 54(4): 266-273. DOI: 10.19751/j.cnki.61-1149/p.2021.04.022

非结构化地质数据内容存储方法研究

基金项目: 

中国地质调查项目“国家地质大数据汇聚与管理”(202009000000180722),地理信息工程国家重点实验室基金资助项目、实验室开放基金(SKLGIE2019-Z-4-1)。

详细信息
    作者简介:

    魏东琦(1983-),男,博士研究生,高级工程师,主要研究方向为地质大数据、数据挖掘、自然语言处理。E-mail:wdongqi@mail.cgs.gov.cn。

    通讯作者:

    江宝得(1982-), 男, 博士, 助理研究员,主要研究方向为空间数据分析、多尺度表达等。E-mail:jiangbaode@cug.edu.cn。

  • 中图分类号: P628

Research on Content Storage Method of Unstructured Geological Data

  • 摘要: 地质工作已迈入大数据时代,但地学信息被记录成的报告、图件等非结构化数据,仍按照较为简单的方式组织归类到一起并存储在文件系统中,形成很多个内部构成复杂的数据集。这种方式不能很好的表达非结构化数据承载的丰富地学信息,也不便表达信息之间的复杂关系,更不利于发现跨数据集存在的深层知识。为尝试解决这个问题,笔者提出了多粒度级别内容树模型和支持演化的数据建模方式。这些特性使得通过模型可以对数据内容进行不同尺度的拆分,对信息的精确定位,还可以使模型根据数据主体需要,拓展主体特征描述的维度,逐步发现数据包含的信息和建立信息与信息之间的关系。考虑到地质大数据的特点,设计了以HBase为核心的数据模型持久化方式,以达到使用大数据技术体系下技术分析处理数据的目的;最后给出了对成果地质数据进行建模的实例,将文档、图件等非结构化数据以内容实体为最小单元进行拆分和重构,达到了较好的内容组织和信息表达效果。
    Abstract: Geological work has entered the era of big data, yet the unstructured data, such as reports and maps carrying geosciences information, are still classified in simple ways and stored in the file system, forming a lot of data set with complex internal structures. This method cannot well deliver the abundant geosciences information carried by unstructured data or the complex relationships with information, nor can it discover the knowledge deeply existing across data sets. To solve the problem, this paper proposes a multi-granularity level content tree model and a data modeling method that supports evolution. The model can split the data content at different scales and accurately locate the information and meanwhile expand the dimension of the subject's feature description according to the need of the data subject. The information contained in the data is finally discovered and the relationship with information is thus established. This paper designs a persistence method of data model with HBase as the core to achieve the purpose of processing data under the big data technology system. A modeling example shows preferable effect in content organization and information conveying, with the unstructured data of documents and maps split and reconstructed as the smallest unit of the content entity.
  • 赵鹏大.地质大数据特点及其合理开发利用[J]. 地学前缘, 2019, 26(4):1-5.

    ZHAO P D.Characteristics and Rational Utilization of Geological Big Data[J]. Earth Science Frontiers, 2019, 26(4):1-5.

    陈建平, 李靖, 谢帅, 等.中国地质大数据研究现状[J]. 地质学刊, 2017, 41(03):353-366.

    CHEN J P, LI J, XIE S, et al. China Geological Big Data Research Status[J]. Journal of Geology, 2017, 41(03):353-366.

    李超岭, 李健强, 张宏春, 等.智能地质调查大数据应用体系架构与关键技术[J]. 地质通报, 2015, 34(07):1288-1299.

    LI C L, LI J Q, ZHANG H C, et al. Big Data Application Architecture and Key Technologies of Intelligent Geological Survey[J]. Geological Bulletin of China, 2015, 34(07):1288-1299.

    王珊, 王会举, 覃雄派, 等.架构大数据:挑战、现状与展望[J]. 计算机学报, 2011, 34(10):1741-1752.

    WANG S, WANG H J, QIN X P, et al. Architecting Big Data:Challenges, Studies and Forecasts[J]. Chinese Journal of Computers, 2011, 34(10):1741-1752.

    覃雄派, 王会举, 李芙蓉, 等.数据管理技术的新格局[J]. 软件学报, 2013, 24(02):175-197.

    QIN X P, WANG H J, LI F R, et al. New Landscape of Data Management Technologies[J]. Journal of Software, 2013, 24(2):175-197

    王梅, 周娇玲, 乐嘉锦.一种列存储数据仓库中的数据复用策略[J]. 计算机学报, 2013, 36(08):1626-1635.

    WANG M, ZHOU J L, LE J J.A Data Reusing Strategy in Column-Store Data Warehouse[J]. Chinese Journal of Computers, 2013, 36(08):1626-1635.

    吴冲龙, 刘刚, 张夏林.地质科学大数据及其利用的若干问题探讨[J]. 科学通报, 2016, 61(16):1797-1807.

    WU C L, LIU G, ZHANG X L.Discussion on Geological Science Big Data and its Applications[J]. Chinese Science Bulletin, 2016, 61(16):1797-1807.

    杨鹏, 林俊晖.一种基于MongoDB和Hadoop的海量非结构化物联网数据处理方案[J]. 微电子学与计算机, 2018, 35(04):68-72+78.

    YANG P, LIN J H.A Scheme for Massive Unstructured Iot Data Processing Based on MongoDB and Hadoop[J]. Microelectronics & Computer, 2018, 35(04):68-72+78.

    谢华成, 陈向东.面向云存储的非结构化数据存取[J]. 计算机应用, 2012, 32(07):1924-1928+1942.

    XIE H C, CHEN X D.Cloud storage-oriented unstructured data storage[J]. Journal of Computer Applications, 2012, 32(07):1924-1928+1942.

    李玉坤, 孟小峰, 张相於.数据空间技术研究[J]. 软件学报, 2008(08):2018-2031.

    LI Y K, MENG X F, ZHANG X Y.Research on Dataspace[J]. Journal of Software,, 2008(08):2018-2031.

    Biham E, Chen R, Joux A, et al. Collisions in SHA-0 and Reduced SHA-1[M]. Springer Berlin Heidelberg, 2005.

    Dean J, Ghemawat S.MapReduce:Simplified data process-ing on large clusters[J]. Communications of the ACM, 2004, 51(1):137-150.

    Ashley I.Naimi, Daniel J.Westreich.Big Data:A Revolution That Will Transform How We Live, Work, and Think[J]. American Journal of Epidemiology, 2014, 179(9)Pages 1143-1144.

    Cuzzocrea A, Song I Y, Davis K C.Analytics over Large-scale Multidimensional Data:the Big Data Revolution[A]//International Workshop on Dolap[C]. ACM, 2011, 101-104.

    Franklin M, Halevy A, Maier D.From Databases to Dataspaces:A New Abstraction for Information Management[J]. Sigmod Record:Acm Sigmod (management of data), 2005, 34(4):27-33.

    Chang F, Dean J, Ghemawat S, et al. Bigtable:A Distributed Storage System for Structured Data[J]. Acm Transactions on Computer Systems, 2008, 26(2):1-26.

  • 期刊类型引用(4)

    1. 王翼君,杨光,王振宇,唐洪明,张云峰,屈海洲. 塔里木盆地西北缘克孜勒布拉克南沟乌拉尔统巴立克立克组生物礁地质特征. 地质学报. 2024(04): 1037-1055 . 百度学术
    2. 陆俐合,于海燕,蓝叶,阮青锋,沙鑫,易泽邦. 广西大化县透闪石玉矿床地球化学、锶同位素特征及成因. 桂林理工大学学报. 2024(03): 391-401 . 百度学术
    3. 李生喜,何碧,杨博,魏志福,陶刚,甘保平,赵飞,孙平原,赵振琯,黄鹏飞. 南天山地块塔格拉克地区二长花岗岩锆石U-Pb年代学、地球化学特征:对壳源岩浆成因和构造背景的限定. 中国地质. 2023(02): 622-639 . 百度学术
    4. 史书森,冯松宝,汪宏志,胥翔,尹雪贞. 淮南煤田口孜东矿太原组灰岩微量元素特征. 西昌学院学报(自然科学版). 2023(03): 55-60 . 百度学术

    其他类型引用(2)

计量
  • 文章访问数:  707
  • HTML全文浏览量:  0
  • PDF下载量:  624
  • 被引次数: 6
出版历程
  • 收稿日期:  2021-04-14
  • 修回日期:  2021-05-23
  • 网络出版日期:  2022-07-28
  • 发布日期:  2021-12-04

目录

    /

    返回文章
    返回