删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

中英对照中医药术语数据集

本站小编 Free考研考试/2022-01-02


摘要&关键词
摘要:中英对照中医药术语数据集基于人民卫生出版社(PMPH)制定的《中医英语术语(内部草案)》、世界卫生组织(WHO)制定的《WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region》和世界中医药学会联合会(WFCMS)制定的《International Standard Chinese-English Basic Nomenclature of Chinese Medicine》3个权威术语标准整合而成,旨在促进中医药术语标准化和中医药国际交流。本数据集通过Python pandas包及OCR技术将数据进行采集、清洗、整理、合并,最终分为56类,共整理数据16189条,经合并为8975条。本数据集促进了中医术语的规范化,方便了学术交流和中医的继承发扬,同时有助于中医药信息化建设。
关键词:中医药;术语;中英对照

Abstract & Keywords
Abstract:?The dataset is based on an integration of the English Terminology of Traditional Chinese Medicine (Internal Draft) compiled by the People’s Health Publishing House (PMPH), the WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region formulated by the World Health Organization (WHO) and the International Standard Chinese-English Basic Nomenclature of Chinese Medicine produced by the World Federation of Chinese Medicine Associations (WFCMS). It is aimed to promote the standardization of Traditional Chinese Medicine (TCM) terms and international communication of TCM. We adopted Python pandas package and OCR technology to collect and sort 16,189 items, which were merged into 8,975 items, 56 categories. The dataset can promote the standardization of TCM terms, facilitate academic communication, inheritance and development of TCM, and contribute to the informatization construction of TCM.
Keywords:?Traditional Chinese Medicine;?terminology;?Chinese-English

数据库(集)基本信息简介
数据库(集)名称中英对照中医药术语数据集
数据作者梁昊、吴佳泽、段伦慧、彭清华、胡志希、周小青
数据通信作者彭清华(pqh410007@126.com)
数据时间范围2007–2020
地理区域世界各国
数据量1.45 MB
数据格式*.csv
数据服务系统网址http://www.dx.doi.org/10.11922/sciencedb.j00001.00213
基金项目湖南中医药大学教学改革研究项目(2020-JG006);湖南省科技创新计划(2020RC2061)。
数据库(集)组成数据集由1部数据表构成:表中有10个字段,包括ID、中文简体、中文繁体、拼音、WHO英文术语、PMPH英文术语、WFCMS英文术语、术语的英文解释、类别编码、类别名称。共计8975条。

Dataset Profile
TitleA dataset of Chinese-English terminology of Traditional Chinese Medicine
Data corresponding authorPENG Qinghua (pqh410007@126.com)
Data authorsLIANG Hao, WU Jiaze, DUAN Lunhui, PENG Qinghua, HU Zhixi, ZHOU Xiaoqing
Time range2007–2020
Geographical scopeWorldwide
Data volume1.45 MB
Data format*.csv
Data service system<http://www.dx.doi.org/10.11922/sciencedb.j00001.00213>
Source of fundingTeaching Reform Research Project of Hunan University of Chinese Medicine (2020-JG006); Science and Technology Innovation Program of Hunan Province (2020RC2061).
Dataset compositionThe data set consists of one data table of 8,975 items. There are ten fields in the table, including ID, simplified Chinese, traditional Chinese, Pinyin, WHO English terms, PMPH English terms, WFCMS English terms, English explanation, category code, category name.



引 言
为了促进中医药及民族医药的国际化,方便在学术科研、教育教学及经济贸易等领域的沟通交流,中国官方及中医药国际组织一直致力于中医药标准化和规范化。术语规范,尤其是中医药英语术语规范,是中医药标准化进程中最基础、最亟待解决的问题[1]。得益于谢竹藩、帅学忠、李照国等前辈们的不懈努力,多部术语标准先后出版并广泛传播。人民卫生出版社(PMPH)制定的《中医英语术语(内部草案)》、世界卫生组织(WHO)制定的《WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region》和世界中医药学会联合会(WFCMS)制定的《International Standard Chinese-English Basic Nomenclature of Chinese Medicine》是当前知晓度和应用率最高的3个术语标准[2-3]。然而,近几年在阅读文献和教学中发现,学生、中医从业者、科研工作者对中医术语标准的知晓度和使用频率不高[4]。中英文的中医/中西医结合类学术期刊投稿指南鲜有要求投稿时注意术语规范或推荐使用已经发布的术语标准。中医学作为一个偏传统的学科,尚缺乏标准化和规范化意识,在术语使用上较为随意。究其原因,当前这些术语大部分为纸质版或电子书形式,不利于查找[5];另外,3个标准也有差异,虽各有千秋,但也有一些局限性和片面性[6]。因此,我们基于以上术语标准建设中医药术语中英对照数据集,合并词义相同的术语,研究术语差异和建立术语查询系统,为建立更权威、合理、全面的中医药术语数据库打下基础。

1 ? 数据采集和处理方法
1.1 ? 原始数据来源
所有数据来源于人民卫生出版社(PMPH)制定的《中医英语术语(内部草案)》、世界卫生组织(WHO)制定的《WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region》[7]和世界中医药学会联合会(WFCMS)制定的《International Standard Chinese-English Basic Nomenclature of Chinese Medicine》[8]。获得所有中医术语的字段,并进行合并。

1.2 ? 数据采集和处理方法
原始数据为WHO、PMPH、WFCMS 3个标准的书籍或电子文档。把原始数据通过OCR和PDF转化工具整理成规范的数据表(dataframe)格式,命名为WHO.csv、PMPH.csv、WFCMS.csv。将每个数据表每条记录均以术语的中文简体名称作为唯一字段方便进行数据合并,使用Python的pandas包对数据进行合并和清洗。最终合并的数据表字段为:ID、中文简体、中文繁体、拼音、WHO英文术语、PMPH英文术语、WFCMS英文术语、术语的英文解释(基于WHO标准)、类别编码、类别名称。共整理数据16 189条,其中WHO术语3262条,PMPH术语6848条,WFCMS术语6079条(图1)。最终合并为8975条。




图1 ? 数据采集和处理方法流程

1.3 ? 数据规范化处理
为了便于进行归类,我们基于《中华人民共和国国家标准GB/T 13745-2009学科分类与代码》[9]进行了更进一步分类(表1)。部分分类下没有条目,是为了以后填充术语而暂时保留。文档编码为UTF-8,针对生僻字或数据合并后可能出现的乱码,根据原始数据进行修正。每条数据的繁体中文和拼音均使用计算机自动生成,为了避免多音字错误,对一些常见多音字进行了拼音修正。对于某个标准中没有的英文术语,保持该字段为空。只有WHO标准提供了术语的英文解释,对于WHO中没有的术语条目,术语的英文解释字段为空。所有方名、药名均为实体词首字母大写,所有简写均为大写字母,所有穴位名均为大写字母;其余英文术语均为小写。数据集采集和处理由吴佳泽完成(7年编程经验,在GitHub拥有10项开源项目,荣获Arctic Code Vault Contributor,https://github.com/BillEliot)。
表1 ? 术语分类表
分类代码学科分类名称Category数量
360.1011中医基础理论(包括经络学等)Basic theory0
360.1011a学科总论General98
360.1011b阴阳五行Yin yang and five phases130
360.1011c气血津液精神Qi blood fluid essence spirit79
360.1011d藏象Visceral manifestation271
360.1011e形体官窍Body Constituents and Orifices of Sense Organ198
360.1011f经络Meridian and collateral64
360.1011g病因Cause of disease240
360.1011h病机Mechanism of disease575
360.1011i治则治法Rules and methods of treatment765
360.1011j治疗手段Approaches37
360.1014中医诊断学Traditional Chinese diagnostics2
360.1014a诊法总论General of diagnostic method11
360.1014b望诊Inspection232
360.1014c闻诊Listening and smelling57
360.1014d问诊Inquiry300
360.1014e切诊Palpation131
360.1014f辨证总论General of pattern identification7
360.1014g八纲辨证Eight-principle pattern identification97
360.1014h病因辨证Disease cause pattern identification88
360.1014i气血辨证Qi-blood pattern identification47
360.1014j津液辨证Fluid-humor pattern identification30
360.1014k脏腑辨证Visceral pattern identification218
360.1014l六经辨证Six-meridian pattern identification61
360.1014m卫气营血辨证Defense, qi, nutrient and blood pattern identification30
360.1014n三焦辨证Triple energizer pattern identification9
360.1014o其他辨证Other pattern identification13
360.1017中医内科学Chinese internal medicine437
360.1021中医外科学Surgery of Chinese medicine192
360.1024中医骨伤科学Chinese orthopedics and traumatology249
360.1027中医妇科学Chinese gynecology264
360.1031中医儿科学Chinese pediatrics172
360.1034中医眼科学Chinese ophthalmology150
360.1037中医耳鼻喉科学Chinese otorhinolaryngology128
360.1041中医口腔科学Chinese stomatology0
360.1044中医老年病学Chinese geriatrics0
360.1047针灸学(包括针刺镇痛与麻醉等)Acupuncture and moxibustion1
360.1047a针法Acupuncture302
360.1047b灸法Moxibustion64
360.1047c拔罐Cupping25
360.1047d穴位Acupoint606
360.1051按摩推拿学Tuina29
360.1054中医养生康复学(包括气功研究等)Chinese health preservation and rehabilitation98
360.1057中医护理学Chinese nursing0
360.1061中医食疗学Diet therapy of Chinese medicine0
360.1064方剂学Formula study0
360.1064a方剂总论General of formula study204
360.1064b方剂名称Formula name580
360.1067中医文献学Chinese medical literature153
360.1099中医学其他学科Other subjects of Chinese medicine0
360.30中西医结合医学Integration of Chinese and Western medicine0
360.40中药学Chinese pharmacy2
360.40a中药总论General of Chinese pharmacy295
360.40b中药名称Herbal names1234



2 ? 数据样本描述
2.1 ? 数据结构
本数据集包含1张数据表。表中有10个字段,包括ID、中文简体、中文繁体、拼音、WHO英文术语、PMPH英文术语、WFCMS英文术语、术语的英文解释、类别编码、类别名称。每个类别的数据量如表1。

2.2 ? 数据样本展示
以中医术语“关格”为例,表2全面展示了该术语的中英文术语名称和英文解释。归类以类别编码和类别名称表示,可根据表1归类对应。
表2 ? 中医药术语中英对照数据集样本展示
序号说明数据示例
1编号67
2术语名称(简体)关格
3术语名称(繁体)關格
4拼音guān gé
5WHO术语block and repulsion (disease)
6PMPH术语anuria and vomiting
7WFCMS术语anuria and vomiting
8英文解释a diseased state characterized by urinary stoppage and vomiting
9类别编码424.1017
10类别名称中医内科学



3 ? 数据质量控制和评估
在通过Python完成数据合并后,我们依靠人工核对的方式对数据进行修正。由2人首先对数据对应性问题进行核查,保证无串行、错位等现象;然后对照源数据对数据转化中出现的乱码分别进行修复;重点核对生僻字和多音字条目的拼音。对于源数据中本身就是乱码,无法进行核实的,暂时保留,待以后通过其他途径核查条目确认后再进行修改。对于名称不同,但意思相同的术语,暂不合并,全部视为不同记录,予以保留。同时,以Vue.js + Django为基础框架搭建了在线检索网站(https:// medai.vip)。在网站中检索术语时,若使用者发现错误的条目,可以直接点报错(图2),我们在系统后台定期进行修正。质控人员为梁昊(本科毕业于湖南中医药大学医学英语专业,从事中医英译工作10年)和周小青(曾任世界中医药学会联合会翻译专业委员会副会长,长期从事中医英译工作)。




图2 ? 中医术语中英对照查询系统术语报错演示

4 ? 数据使用方法和建议
本数据集以csv文件为存储格式,使用者可以使用主流的数据管理及统计软件来对数据进行修改和查看,尤其方便利用Python和R语言对术语进行文本分析和处理。同时,基于本数据集搭建了术语检索系统(https://www.medai.vip),可以在该网站上随时检索术语。任何组织和个人可以以非商业目的使用本数据集,如搭建自己的术语库或术语检索系统。

5 ? 数据价值
国内目前未见相似中英对照中医术语数据集。随着中医在全球的发展,国家对发展中医药的支持,国外对中医的了解需求日益增加。但由于种种原因的限制,不能及时查阅到中医术语对应的英文,导致国内外中医爱好者、学习者在学习交流的过程中,存在交流障碍,限制了中医对外发展及中医的对外交流。本数据集的公开,方便了中医从业者查询术语,促进了中医术语的规范化应用,有利于学术交流和中医的继承发扬。同时,标准化的术语也方便了中医药信息化建设,尤其是在HIS、电子病历系统、医学数据分析系统中,让数据更加整洁,避免产生垃圾数据,减少不必要的数据清洗工作。与此同时,中医药领域开源的数据集稀少,不利于科学研究的开展和共享,本数据集的发布也是中医药开源模式的一次尝试,希望同行能够分享更多数据集,促进中医药的开放与发展。


[1]
贾静, 赵海磊. 中医术语英译标准的研究现状[J]. 临床医药文献电子杂志, 2016, 3(54): 10859–10860. DOI:10.16281/j.cnki.jocml.2016.54.138.

+?CSCD?·?Baidu Scholar

[2]
付甜甜, 都立澜, 刘艾娟. 基于WHO版和世中联版两大国际标准的中医病机术语英译对比研究[J]. 中国中医基础医学杂志, 2016, 22(2): 252–254.

+?CSCD?·?Baidu Scholar

[3]
李珊珊. 浅析世中联与WHO中医名词术语英译国际标准[J]. 2016(4): 82–83. DOI:10.3969/j.issn.1009-5349.2016.04.038.

+?CSCD?·?Baidu Scholar

[4]
徐丽, 张喆, 闵玲, 等. 中医术语英译标准的回顾与前景[J]. 西部中医药, 2021, 34(3): 158–162. DOI:10.12174/j.issn.2096-9600.2021.03.40.

+?CSCD?·?Baidu Scholar

[5]
董燕,朱玲,于彤,崔蒙,李海燕.中医临床术语研究现状与系统构建方法探讨[J].国际中医中药杂志,2014,36(11):965–968.

+?CSCD?·?Baidu Scholar

[6]
许吉, 施毅, 袁敏, 等. 中医术语国家标准比较研究[J]. 时珍国医国药, 2015, 26(9): 2294–2295. DOI:10.3969/j.issn.1008-0805.2015.09.096.

+?CSCD?·?Baidu Scholar

[7]
World Health Organization. WHO international standard terminologies on traditional medicine in the western pacific region[M]. Geneva: WHO, 2007.

+?CSCD?·?Baidu Scholar

[8]
Zhenji. International standard Chinese-English basic nomenclature of Chinese medicine[M]. Beijing: Peoples Medical Publishing House, 2008.

+?CSCD?·?Baidu Scholar

[9]
中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会. 学科分类与代码: GB/T 13745—2009[S]. 北京: 中国标准出版社, 2009.

+?CSCD?·?Baidu Scholar


数据引用格式
梁昊, 吴佳泽, 段伦慧, 等. 中英对照中医药术语数据集[DB/OL]. Science Data Bank, 2021. (2021-04-22). DOI: 10.11922/sciencedb.j00001.00213.

稿件与作者信息

论文引用格式
梁昊, 吴佳泽, 段伦慧, 等. 中英对照中医药术语数据集[J/OL]. 中国科学数据, 2021, 6(3). (2021-08-25). DOI: 10.11922/csdata.2021.0009.zh.
梁昊Liang Hao

主要承担工作:数据源搜集、数据集设计、论文写作。
(1986—),男,河北保定人,博士,讲师、主治医师,研究方向为医学人工智能。
吴佳泽Wu Jiaze

主要承担工作:数据清洗、合并,术语系统开发。
(1999—),男,河北保定人,本科生在读,研究方向为医学数据挖掘。
段伦慧Duan lunhui

主要承担工作:数据核查,论文写作。
(2000—),女,湖南常德人,本科生在读,研究方向为医学数据挖掘。
彭清华Peng Qinghua

主要承担工作:组织数据集构建,修改论文。
pqh410007@126.com
(1965—),男,湖南望城人,博士,教授,研究方向为数字中医药。
胡志希Hu Zhixi

主要承担工作:修改论文。
(1962—),男,湖南娄底人,博士,教授,研究方向为中医药标准化。
周小青Zhou Xiaoqing

主要承担工作:修改论文。
(1957—),男,湖南浏阳人,博士,教授,研究方向为数字中医药。


相关话题/数据 中医 中医药 英文 工作

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于树轮宽度指数的过去千年美国分区降水变化数据集
    摘要&关键词摘要:重建过去千年的区域高分辨率降水变化,对理解年代–百年尺度气候的区域差异具有独特意义。本文利用美国已有的1258个树轮宽度指数年表,结合1901–2015年的月降水量资料,分析了树轮宽度与年(上年10月至当年9月)降水量变化的相关性及降水变化的空间型;在此基础上,将美国分为12个降水 ...
    本站小编 Free考研考试 2022-01-02
  • 江苏省主要文物旅游景点名录数据集
    摘要&关键词摘要:江苏历史悠久,人文荟萃,文物旅游景点众多,其文物保护与开发利用、文化旅游产业的发展具有重要意义。本文以江苏省全国重点文物保护单位名录(第一批至第八批)和省级文物保护单位名录(第一批至第八批)为数据源,根据江苏省旅游景区(2A级及以上)名录对文物保护单位进行筛选,确定了江苏省主要文物 ...
    本站小编 Free考研考试 2022-01-02
  • 基于全国第二次土壤普查的四川重庆土种志数据集
    摘要&关键词摘要:本数据集是基于1994年四川科学技术出版社出版的《四川土种志》整理加工而成,是四川省全国第二次土壤普查的成果。在全国和四川省土壤分类系统的基础上,共整理出25个土类、63个亚类和380个土种,对每个土种的名称、代号、归属、分布、面积、主要性状、典型剖面和生产性能等均作了较规范化的描 ...
    本站小编 Free考研考试 2022-01-02
  • 2000–2017年江汉平原耕地遥感植被指数数据集
    摘要&关键词摘要:江汉平原是我国重要的农产区。本文利用MODIS卫星遥感数据,处理获得NDVI、EVI、DVI、RVI、SAVI、NDWI6种遥感植被指数,整理为一个数据集。本数据集覆盖2000–2017年江汉平原的所有耕地区域,可作为江汉平原作物种植和生长情况的历史溯源研究和江汉平原农田生态演进研 ...
    本站小编 Free考研考试 2022-01-02
  • 基于InVEST模型的北京市延庆区生态系统服务功能评价研究数据集
    摘要&关键词摘要:延庆作为北京生态涵养的重要承载主体,对其生态系统服务功能进行客观科学的定量评估,可为当地土地利用规划及生态管理提供科学指导及支撑。基于InVEST模型中碳储存、水源供给、土壤保持子模型生产函数原理,采集整理2004–2014年延庆区遥感数据、气候数据、土地数据、土壤数据、农业专业数 ...
    本站小编 Free考研考试 2022-01-02
  • 2012–2019年千烟洲红壤丘陵综合开发试验站散射辐射数据集
    摘要&关键词摘要:散射辐射是太阳辐射的重要组成成分,散射辐射中的光合有效部分是植物光合作用的主要驱动力,其动态变化对生态系统碳循环有重要影响。2012年在千烟洲红壤丘陵综合开发试验站的综合气象观测场内安装了SPN1辐射仪(Delta-TDevicesLtd,英国)进行散射辐射观测。对于缺失的散射辐射 ...
    本站小编 Free考研考试 2022-01-02
  • 2009–2015年呼伦贝尔贝加尔针茅草甸草原植物群落组成动态数据集
    摘要&关键词摘要:贝加尔针茅草原是欧亚草原区亚洲中部草原亚区东端特有的草原群系,是草甸草原的代表类型之一,其草原生态系统正在经受人类干扰和气候变化的双重压力。通过野外长期固定样地(2006年围封)对植物群落组成进行观测,本数据集整理了2009–2015年呼伦贝尔贝加尔针茅草甸草原植物群落组成,具体包 ...
    本站小编 Free考研考试 2022-01-02
  • 基于高分三号影像的2019–2020年高亚洲地区典型冰川表面流速数据集
    摘要&关键词摘要:青藏高原又称世界“第三极”,是北半球中低纬度地区最大的现代冰川作用区,在全球气候系统中起着至关重要的作用。研究该地区冰川流速时空变化对于认识冰川动力学特征,及其对气候变化的响应具有重要的意义。而且长期冰川活动性监测对推动区域可持续发展、促进全球生态环境保护具有重要的指导作用。本文基 ...
    本站小编 Free考研考试 2022-01-02
  • 基于动物志的鸟类形态特征数据集
    摘要&关键词摘要:基于动物志的鸟类形态特征数据集是在对《中国动物志鸟纲第七卷》相关文字记录数字化处理后,利用专门工具对内容进行提取得到的。本数据集包含书中记录的夜鹰目、雨燕目、咬鹃目、佛法僧目、啄木鸟目(鴷形目)共计5目13科85种鸟类,其每条记录都是对各物种/亚种不同性别各发育阶段的形态、生物学、 ...
    本站小编 Free考研考试 2022-01-02
  • 全球科学数据出版发展态势分析
    摘要&关键词摘要:科学数据出版是推动科学数据共享,实现科学数据价值最大化的重要方式。本文通过对全球科学数据出版数据进行分析,探求全球科学数据出版发展态势。对WebofScience数据库中的数据论文和数据集记录进行检索,通过数据统计方法从时间、国家/地区、研究方向、出版来源、影响力等维度进行分析。从 ...
    本站小编 Free考研考试 2022-01-02