淘宝推广运营求职招聘微信群 https://baijiahao.baidu.com/s?id=1713591262929630808&wfr=spider&for=pc
作者简介:
潘威,年11月生,云南大学历史地理研究中心副教授,博士生导师。云南大学历史与档案学院“数字人文”史学应用工作室主任;
张光伟,年1月生,年毕业于陕西师范大学计算机科学学院,同年留校,年陕西师范大学计算机学院计算机软件与理论专业硕士研究生。年在西安交通大学电子与信息工程学院攻读博士学位,研究方向为并行编程模型、异构并行计算机体系结构和编译技术;
夏翠娟,上海图书馆研究员,数字人文项目主管。研究方向∶元数据、知识本体、知识组织,关联数据、数字人文、文化记忆。现任中国图书馆学会编译出版委员会委员,中国社科情报学会数字人文专业委员会委员上海市图书馆学会青年学术委员会副主任,数字人文专业委员会主任。在DIM,UJoL,图书馆学与资讯科学、中国图书馆学报、大学图书馆学报、图书馆论坛、图书馆杂志等国内外学术期刊发表论文40余篇;
孙涛,男,河北张家口人,复旦大学中国历史地理研究所空间综合分析实验室工程师,硕士研究生导师。研究兴趣为历史地理数据建设与应用的探索,具体方向侧重于历史自然地理以及与GIS应用相关的历史地理研究,相关技术方法为多项国家自然科学基金等项目提供支撑。
专题前言
数据驱动型研究(Data-drivenResearch)是数字人文研究的典型特征。而要从历史文献中获取数据,图书馆界的通常做法是先将文献数字化扫描成图像后,通过OCR识别获得文本;再将文本进行结构化或半结构化处理,得到可供机器计算和分析的数据。这种做法不适用于历史地图(包括非科学的中国传统舆图和基于测绘科学的近现代老地图)、老照片等图像文献的数据化处理。对图像文献,需要直接从图像中获取数据。近年来,艺术图像的语义标注成为一个热门的学术话题,但对历史地图和老照片等具有鲜明记忆媒介特性的图像文献,却缺乏系统性的数据化方法和路径。二者都是对某一地域或物质对象在不同时间切面的记忆快照,有着记忆媒介的层累效益。历史地图的数据化由于其较强的专业性且集中于历史地理学领域,有大量收藏的图书馆界仅限于从图书馆的角度进行简单编目,难以充分发掘老地图作为地域记忆媒介的特性;而老照片数字化扫描或翻拍后的进一步校正、调色、切割等处理手段,往往使老照片遗失了作为记忆媒介的原始特征。为此,《图书馆论坛》邀约专家以“图像文献与数字记忆”为主题,对这一问题进行探讨。本专题中的《古旧地图的信息化》《民国西京市区图的数字化、数据提取和应用价值》两文作者来自历史地理学研究领域,向图书馆界介绍历史地图的数据化方法、技术以及如何用于数字人文研究;《数字影像与城市记忆的层累效应》作者是数字媒体研究者和从事图像文献整理研究的图书馆员,试图为保留老照片数字化和数据化处理过程中的变化以实现其数字记忆的层累效应提供方法论参考。
夏翠娟
摘要
近年人文社会科学研究中古旧地图的使用规模和数字化处理需求不断增加,古旧地图的信息化迫在眉睫。文章以“数字历史黄河”(DHYR)·图形资料库建设为例,介绍DHYR中图形史料的RDF编目方案和古旧地图地名信息自动化;通过清代基层水利单元“汛”“堡”重建黄河变迁事件研究案例,分析古旧地图以及古旧地图信息化方案在人文社会科学研究中的意义。RDF是用于描述知识图谱实体及其关系的数据模型,能减少历史地理信息化数据孤岛现象,在DHYR中设计针对古旧地图的编目方案和描述词表;采用U-Net架构模型进行古旧地图地名OCR识别,展现深度学习方法在古旧地图信息自动化提取中的能力,提高历史地名提取的效率和准确率。
前言
古旧地图是人文社会科学研究的重要史料,在光学字符识别(OCR)、地理信息系统(GIS)、数据库技术等数据库信息化手段支持下,可以最大限度挖掘古旧地图中的地理信息,提升古旧地图的使用效率[1]。历史地理学界针对古旧地图的信息化处理已经进行多项实践,如张萍等基于多种古旧地图对西北“丝绸之路”交通路线和古代城市定位[2]、韩昭庆研究康熙《皇舆全览图》投影方式[3]、潘威等对近代灌渠体系的重建和分析[1],皆实践了GIS手段在古旧地图处理中的运用。不过,历史地理学界将古旧地图的信息化操作局限于GIS环境下的人工矢量化处理,限定了对古旧地图的进一步研究和更广泛使用[2]。解决以上问题的方法是让历史地理信息化与图情、计算机科学、信息管理等学科领域深度融合,在持续推动GIS在历史地理学中应用的同时,充分利用大数据环境下的数据库技术、图形计算技术、深度学习技术[1-4]。通过加强对古旧地图的管理、处理、使用和分析等多项技能,为历史地理学、地图学史和数字人文发展提供更多可能性。而要落实这一目标,首先应解决古旧地图文献的数字化管理和图幅内容的自动化提取。对古旧地图的管理既是对图幅作为文献的数字化和编目,也是对图幅内容的提取和数据化。
在历史地理学研究中,使用古旧地图需要信息化管理和图幅内容的信息化提取,两者实际为一有机整体。研究者首先需要建立古旧地图资料库,采用信息化手段管理大量古旧地图文档,在此基础上采用OCR等手段实现古旧地图信息提取的自动化,之后方才进入具体研究环节,即专题数据的使用层面。因此,古旧地图的信息化管理以及图幅内容的自动化提取是科研工作中的重要环节。实现这一目标,必须引入图情知识体系(本文所用“图情知识体系”一词为图书情报学的理论与技术体系总和,是笔者作为历史地理学工作者对图情学路径的一种概括),尤其是图情学界所采用的RDF编目、语义网和近年来大力提倡的OCR技术等,对推动历史地理信息化具有重要意义。本文以清代河工图的信息化处理方法为例,通过“数字历史黄河”(DHYR)中的图形资料库的设计与实现,展现OCR、语义网技术、深度学习技术在历史地理信息化建设中的重要作用,特别是对古旧地图管理和使用中的重要作用。
1“数字历史黄河”·图形资料库
1.1资料介绍
“数字历史黄河”(DHYR)是由河南大学、云南大学共建共享共有的黄河历史变迁古旧地图资料库,目的是实现黄河历史变迁的数据管理、多维展示和辅助分析[5-6]。黄河流域古旧地图数量众多,中国国家图书馆等单位建有古旧地图管理平台,对其已经收藏图形,DHYR原则上不重复收录,专门针对尚未得到系统收集、整理和电子化处理的古旧地图,力求与其他单位藏图互为补充。该系统的资料管理库有专门的“图形资料库”(本文记为“DHYR·图形资料库”),其中收录有清代河工图、民国地形图、黄河流域规划图、晚清西方黄河调查图、近代工程蓝图、手绘草图等多种图像。图1列举了被DHYR·图形资料库收录的图形史料,其中,图1-1为年徐城北岸黄河支岔图(局部);图1-2为年渭北引泾灌溉图(局部);图1-3为年陕西省水利厅黄河规划图·洛河(局部)。DHYR覆盖范围为黄河流域的青、宁、甘、陕、豫、鲁、苏7省,内容涉及黄河防洪工程、灌溉体系、交通布局、土地利用等,包括中、英、日等多种语言文字,已达2,余幅,原图收藏单位包括中国水利水电研究院、黄河水利委员会等重要机构,以及地方水利、档案、博物馆等系统。需要说明的是,沿黄地区的地形图除水利部门绘制外,还有大量为军事部门绘制,这类非水利机构暂时不收录于DHYR内。
1.2设计思路
DHYR·图形资料库的界面设计风格简洁(见图2)。DHYR·图形资料库建设的主要思路包括:持续收集有关黄河的各类图形史料;修复破损史料;对图形进行扫描,形成高精度电子文本;建设信息化管理方案,进行高效管理;与平台其他资料库和数据库实现链接;充分挖掘史料价值,推动黄河变迁研究。之所以形成以上目的,主要在于这一工作面临多种困难,包括:经费限制,本工作只能将经费用于收集与整理图幅,突出内容建设,降低平台建设难度;管理能力不足,作为高校小型科研团队,缺乏公共图书馆那样成熟的信息平台管理能力,只能牺牲平台功能,将其维持在团队能够运营的水平上。实际上,这是许多高校中小型科研团队面临的问题,这一问题造成大量的历史地理专题数据库无法持续运营。
DHYR·图形资料库在设计上采取较保守的策略,优先保证资料库的稳定运行,在这一前提下逐步尝试新技术运用。DHYR·图形资料库有四大功能模块:(1)图幅信息模块:对图形史料的基本信息进行输入、编辑;(2)查询检索模块:按照图名、编码、绘制者、管理者、时代等多种要素进行图幅检索;(3)用户管理模块:登记、管理DHYR使用者信息;(4)数据维护模块:对数据进行存储、备份、还原操作。图形资料库是DHYR的组成部分,库结构采用HTML+CSS设计,后台结构采用SQL-Server。
1.3编目方案
1.3.1元数据方案和语义网技术
本团队在资料管理方式上,尝试中国历史地理学界内尚未被