方剂治法模型知识库的扩展设计和建模实验研究_疾病_资讯

...后范冰冰法国设计类 numero 中国版4月刊的封面中国电影吧

张帆+任廷革+高全泉+等

摘要：目的完善方剂知识发掘的方法，在提高方剂治法模型识别能力的同时，发现影响模型稳健性的关键因素。方法提出中医方剂智能分析系统（CPIAS）知识库的扩展和改进设计，如效-候关系启发式筛选规则的建立，效-素关系、效-素关系鉴别、素-证关系等知识表的创建。在此基础上，CPIAS计算出量化数据，应用中医方剂分类模式识别系统（CPSVM）进行方剂治法建模实验，并对学习结果进行分析。结果利用知识库扩展和改进后的计算结果构成数据样本时，CPSVM机器学习水平明显提升。结论方剂功效筛选、方剂症状排序、方剂证素集合是影响中医方剂治法模型构建质量的关键性因素。

关键词：中医方剂；知识发掘；机器学习

DOI：10.3969/j.issn.1005-5304.2014.09.004

中图分类号：R2-05 文献标识码：A 文章编号：1005-5304（2014）09-0013-04

方剂是中医学理、法、方、药集中的表达形式。“方剂”直接可见的信息非常简洁，只有“药物”和

基金项目：国家自然科学基金（81072745）；北京中医药大学校级课题（2013-X-039）

通讯作者：任廷革，E-mail：tina1949@hotmail.com

“剂量”，但其蕴含了大量医理、诊断、治疗方法的知识。然而，要从方剂中获得这些隐性知识，即便是专业人员也非易事。随着当代信息科学的发展，自动发掘与机器学习相结合来揭示中医方剂所蕴含的知识成为可能。知识发现技术被认为是解决“数据丰富而知识贫乏”困境的有效途径，如非相关文献知识发现法，主要通过探寻两类互不引用或很少被共同引用的“独立文献”之间的逻辑关联，达到发现新知识的目的[1]。目前，该方法在中医医案研究的应用中由于欠缺某些关键技术尚难以实施。从整体来看，目前中医医案数据库开发方式较单调，价值发掘局限，从原始医案中发掘出新价值的成果偏少[2]。中医方剂智能分析系统（CPIAS）是一个自动发掘方剂蕴涵知识的软件平台，该平台建立了基于分类的药物之药效强度的计算模型[3]。中医方剂分类模式识别系统（CPSVM）是基于支持向量机方法的学习软件系统，集训练学习、参数优化、预测和结果分析等功能于一体，可用于不同应用的分类预测和回归分析[4]。基于CPIAS平台的计算和推导结果，通过CPSVM，我们进行了方剂的机器学习实验[5-6]，目的是通过机器学习，从方剂样本中发现归纳性知识。本研究就CPIAS的重要扩展以及运用这些扩展后方剂机器学习的某些新结果作一阐述。

1 中医方剂智能分析系统知识库的扩展设计

1.1 扩展和改进知识库的必要性

CPIAS中中医药基础知识库的作用是提供量化计算方剂功效时使用的推导规则，据此计算和推导出符合行业认识的结果。最初，涉及的知识库包括4种：表示剂量与药效力度关系的药-量关系、表示药效互作用关系的药-效关系、表示药效与主治证候的效-候关系、表示药效与适应病证的效-证关系。

实际应用中发现，由计算出的方剂功效选择所针对的证候，得到的结果不够精准，原因是忽略了某些或然性结果。其次，在由计算出的功效选择适应病证时，由于中医“证”概念表示和运用的复杂性，其结果也有针对性过于宽泛、聚焦失准的问题。与机器学习的联合使用也发现，所得结果作为数据样本的数据因子时，导致学习机推广能力有所不足。

针对以上问题，我们对相关知识库重新设计，扩展并改进了领域知识的表示；并引入中医诊断学的“证素”概念，将复杂的“证”概念，分解为较简单的“证”与“素”的关系表示形式；提出了根据药效选择证素的推导规则，以及相关的启发式规则。

1.2 效-候关系的启发式筛选规则

知识库中的效-候关系知识表，表示方剂功效与症状、体征的关联规律。患者临床表现出的症状、体征，是人体内环境在外的显象，中医学称作“候”。若方剂对患者治疗有效，则必有方剂功效针对患者的症状、体征发挥了作用（改善或消除），故可以认为方剂功效与症状、体征之间有关联。根据中医学的这种实践效果（事实），可以建立“方剂功效”与“症状体征”之间的对应关系。这种对应关系有多对多的特性，即任意一种功效，在临床上可与多种症状、体征有关联；同时，某种症状、体征不止一种药效对其发生作用。

以“口渴”为例。功效“清热”、“活血”、“化湿”、“逐饮”，都可以针对“口渴”发挥作用，此即不同的功效可针对同一种症状，那么，应如何确定当前是哪种功效发挥了作用呢？为此，我们需要关注患者其他因素或已确定的症状，根据中医临床的基本经验，提炼出能准确定位症状、体征与相关功效之间的逻辑关系，并构成筛选方剂功效的启发式规则集，此即“效-候关系筛选知识表”。这个知识表中的启发式规则，提供了实时发挥作用功效的选择条件（正向影响因子）和不选择条件（反向影响因子），这是个多维表示的规则表。

例如“口渴”，若同时伴有“渴喜冷饮、便秘、尿赤、尿黄、口臭、壮热……”等表现时，系统计算时当选“清热、清胃”等方剂功效，若见“脉虚数……”等表现时，则不能选“清热、清胃”启发式筛选规则的建立，提高了系统对当前方剂实时功效的精准选择，这对提高系统预报结果的聚焦是非常重要的一步。

1.3 预测方剂适应证方法的改进

对一个方剂适应证的预测，原设计是通过知识库中的“效-证关系表”来完成的。实践表明，这样推导的结果正如前所说，存在着针对性过分宽泛、聚焦失准的问题。为了解决这一问题，我们改进了推导的方法。首先将“效-证关系表”细化为3种知识结构表，即效-素关系知识表、效-素关系鉴别知识表、素-证关系知识表。细化的意义在于，改善和纠正了“效-证关系表”在计算中的或然性结果。

“效”是指“方剂功效”。“素”是指“证素”，是中医对“证候要素”的简称，反映的是疾病所表现出的内在病理本质。换言之，“证素”是构成“证”的条件和前提，包括病因、病位、病性、病机等内容，是中医临证思维的关键性内容，也可以理解为中医辨证的知识点所在。“证素”概念的提出，非常适合系统知识的推导，这是我们将其引入知识库建设的原因，这样易于更准确地把握疾病的关键性因子。

1.3.1 效-素关系知识表中医治疗的有效实践证明，一个方剂所具有的功效对某些特定的证素具有针对性。结合文献研究和总结中医临床经验，我们归纳出“效-素关系知识表”。如功效“温胃”可针对“胃寒”（病位、病性）这一证素，功效“辛温解表”可针对“寒邪”（病因）这一证素等从表2中可以看出，方剂功效与证素之间也存在或然性。如“下气”可以针对“肺气逆”，也可针对“胃气逆”，那么系统算法怎样来判断并选择呢？这就需要我们提供可以帮助系统进行鉴别的知识，于是提出了建立“效-素关系鉴别知识表”。

1.3.2 效-素关系鉴别知识表 “效-素关系鉴别知识表”是具有启发功能的规则表。这些知识记录是考证了相关文献并结合临床专家的经验来归纳的，并在对已认识的经典方剂的分析中不断地得到验证和维护。例如在识别“降逆”这一方剂功效时，系统计算的选择规则是：当有“呕吐、干呕、嗳气、喜呕、呃逆……”等临床表现时，系统计算当选“胃气逆”；当有其他临床表现时当相应选择“肺气逆”、“肝气逆”。见表3。“效-素关系鉴别知识表”解决的是对证素信息的准确集合问题，它定义了选择相应结论的判定条件。

1.3.3 素-证关系知识表 “素-证关系知识”表示的是“证素”与“证”之间的关联规律。中医学的“证”，反映的是疾病发展过程中某阶段、某部位的病理变化实质，是对人体内病理环境的提炼和形式化的表达，也是方剂功效发挥作用的靶环境。基于这样的认识，根据“证素”和“证”的因果关系，建立了由“证素”得出相应“证”的推导规则，即“素→证”知识表。两者之间存在着“条件”与“结果”的逻辑关系，即“证素”按照一定的组合规则，构成得出“证”的条件。如“气滞水停证”，是以“气滞”+“水停”等证素为条件的。通过“证素”这个中间环节，使“效-素-证”知识关系得以体现，于是对方剂适应证的知识提取成为可能。从表4的示例中可知：①当系统计算“脾胃伏火证”时，是以“胃热”+“胃不和”+“津液亏”等为必要条件的；②当系统计算“阳气暴脱阴寒内盛证”时，是以“亡阳”+“肾阳虚”+“内寒”等为必要条件，以“脾气虚”为参考条件（加权用）。

1.4 知识表达改进后的实验效果

运用知识库扩展改进后的CPIAS，选取《伤寒论》195方（包括同方不同证的方剂）、《方剂学》501方、《金匮要略》197方作为实验对象，对其隐性知识进行计算和发掘实验。对结果的满意度评价，我们采取行业专家意见介入的方案，主要形式是参照对比权威专业文献的相关记载，检验机器计算和发掘结果与专家的认识是否一致。《伤寒论》方以新世纪全国高等中医药院校规划教材《伤寒学》作为参照标准，《方剂学》方以21世纪全国高等医药教材建设研究会的规划教材《方剂学》为参照标准，《金匮要略》方以中医高等医药院校教材《金匮要略讲义》（“五版教材”）为参照标准。统计结果表明，经系统计算及发掘所得结果，如果从其方剂的“主要功效”（集合后的功效）和“主治证”来分析，和文献中的认识完全拟合，而且还提供出其所隐含的其他治法和适应证等信息。

2 基于中医方剂智能分析系统计算结果的中医方剂分类模式识别系统学习实验

方剂的机器学习是将已知结果的方剂数据作为观测样本，通过训练建模，建立学习机，然后将未知结果的方剂样本提交由学习机预测。此前，我们以CPSVM为工具，将支持向量机（SVM）方法用于方剂的机器学习。在对方剂“治法”分类的初步探索中，数据样本的构建直接应用了CPIAS对方剂的计算和推导得出的结果。也只有基于CPIAS计算出的量化的数据结果，才使方剂的机器学习成为可能。因仅仅是方剂本身的显示信息（文献或临床处方）过于简单，许多隐性知识若不发掘出来，不足以形成有效的观测样本，难以达到所学目的。当CPIAS知识库的表达方式改进后，通过建模实验对其学习效果进行分析。

2.1 建模实验的对象和目标

选择《伤寒论》、《金匮要略》、《方剂学》近1000个方剂为研究对象。此次研究对分类模式识别目的在“探路”，故选择“方剂治法”为实验目标。下以“解表法建模”为例来叙述这一实验过程。

2.2 中医方剂分类模式识别系统解表法建模

在CPSVM平台上，分别用《伤寒论》、《方剂学》、《伤寒论》+《方剂学》数据等，进行了相应的解表法建模实验。实验数据维数范围包括：方剂药物相对药量、方剂药性、方剂药味、方剂归经、方剂功效筛选、方剂症状排序、方剂证素集合。

2.3 解表法模型识别实验

用所构建的解表法模型，对《金匮要略》随机抽取的20个方剂数据进行识别实验，其中有5例应用了解表法，其他没有应用解表法，实验结果如下。

①《伤寒论》解表法模型识别结果与人为分类识别仅在以下1个记录中出现差异：#7_桂枝附子汤。②《方剂学》解表法模型识别结果同上。③《伤寒论》+《方剂学》解表法模型识别结果同上。

上述识别实验的数据结果是一致的，就其结果来说，上述3个模型对这20个实验数据具有同样的识别能力，其识别的结果与人认识的一致性是95%。其中出现差异认识的“桂枝附子汤”用于临床治疗阳虚风湿证，虽有祛风寒之功能，证有表虚之征，但总以助阳、温经、通脉为主，从而达到祛除在表之风湿的目的。因此，此方归为“解表剂”是不够准确的，被系统识别为“No”有一定道理，因此，可以认为其实验结果与人认识的一致性是100%。

2.4 不同维数建模验证

在上述实验数据维数中，“方剂功效筛选”、“方剂症状排序”、“方剂证素集合”3项数据来源于知识库的改进。因此，为了对比知识库扩展改进前后的建模效果，对同一批样本数据，维数选取中去掉“方剂功效筛选”、“方剂症状排序”、“方剂证素集合”3项，代之以“方剂所有功效”，即实验数据维数范围包括方剂药物相对药量、方剂药性、方剂药味、方剂归经、方剂所有功效。

用此方案所构建的解表法模型，仍然分别从上述随机抽取的20个方剂数据进行识别实验，实验的结果如下。

（1）《伤寒论》解表法模型识别结果与人为分类识别比较，以下2个记录中出现差异：#5_麻黄杏仁薏苡甘草汤；#7_桂枝附子汤。

（2）《方剂学》解表法模型识别结果与人为分类识别比较，以下5个记录中出现差异：#1_栝蒌桂枝汤；#2_葛根汤；#4_麻黄加术汤；#5_麻黄杏仁薏苡甘草汤；#7_桂枝附子汤。

（3）《伤寒论》合《方剂学》解表法模型识别结果与人为分类识别比较，以下3个记录中出现差异：#5_麻黄杏仁薏苡甘草汤；#7_桂枝附子汤；#9_甘草附子汤。

可见，用此方案所构建的解表法模型，其识别的结果与人认识的一致性分别是90%（《伤寒论》）、75%（《方剂学》）、85%（《伤寒论》和《方剂学》），均不如“2.3”项数据的建模效果，其预报应用的准确率普遍降低。

3 小结

“2.3”项的实验反映的是知识库改进后的建模效果，“2.4”项的实验反映的是知识库改进前的建模效果。对比可知，系统的知识库经过扩展和改进后，经CPIAS计算和推导得出“方剂功效筛选”、“方剂症状排序、方剂证素集合”，由此3项维数参与构建CPSVM的方剂解表法模型，其识别结果与人认识的一致性分别由改进前的75%～90%提高到95%。实验表明，经过改进设计后的知识库明显提高了方剂治法模型的预报准确率，方剂功效筛选、方剂症状排序、方剂证素集合三者是影响中医方剂治法模型构建质量的关键性因素。

参考文献：

[1] Swanson DR. Medical literature as a potential source of new knowledge[J]. Bull Med Libr Assoc，1990，78（1）：29-37.

[2] 王国印，顾仁樾.中医医案数据库的建立与挖掘[J].中国医药导报， 2007，4（4）：55-56.

[3] 刘晓峰，任廷革，高全泉，等.中医处方智能分析系统的研究与实践[J].中国中医药信息杂志，2007，14（10）：97-99.

[4] 孙燕，臧传新，任廷革.SVM方法在《伤寒论》方小样本分类识别中的应用[J].中国中医药信息杂志，2009，16（2）：98-100.

[5] 高全泉，张帆，刘晓峰，等.中医方剂属性特征的获取和知识挖掘实验[J].计算机工程与应用，2011，47（28）：212-214.

[6] 任廷革，张帆，刘晓峰，等.基于智能计算的中医方剂治法模型研究的构思与流程设计[J].北京中医药大学学报，2012，35（8）：524.

（收稿日期：2013-12-01；编辑：华强）

用此方案所构建的解表法模型，仍然分别从上述随机抽取的20个方剂数据进行识别实验，实验的结果如下。

（1）《伤寒论》解表法模型识别结果与人为分类识别比较，以下2个记录中出现差异：#5_麻黄杏仁薏苡甘草汤；#7_桂枝附子汤。

3 小结

参考文献：

[1] Swanson DR. Medical literature as a potential source of new knowledge[J]. Bull Med Libr Assoc，1990，78（1）：29-37.

[2] 王国印，顾仁樾.中医医案数据库的建立与挖掘[J].中国医药导报， 2007，4（4）：55-56.

[3] 刘晓峰，任廷革，高全泉，等.中医处方智能分析系统的研究与实践[J].中国中医药信息杂志，2007，14（10）：97-99.

[4] 孙燕，臧传新，任廷革.SVM方法在《伤寒论》方小样本分类识别中的应用[J].中国中医药信息杂志，2009，16（2）：98-100.

[5] 高全泉，张帆，刘晓峰，等.中医方剂属性特征的获取和知识挖掘实验[J].计算机工程与应用，2011，47（28）：212-214.

[6] 任廷革，张帆，刘晓峰，等.基于智能计算的中医方剂治法模型研究的构思与流程设计[J].北京中医药大学学报，2012，35（8）：524.

（收稿日期：2013-12-01；编辑：华强）

用此方案所构建的解表法模型，仍然分别从上述随机抽取的20个方剂数据进行识别实验，实验的结果如下。

（1）《伤寒论》解表法模型识别结果与人为分类识别比较，以下2个记录中出现差异：#5_麻黄杏仁薏苡甘草汤；#7_桂枝附子汤。

3 小结

参考文献：

[1] Swanson DR. Medical literature as a potential source of new knowledge[J]. Bull Med Libr Assoc，1990，78（1）：29-37.

[2] 王国印，顾仁樾.中医医案数据库的建立与挖掘[J].中国医药导报， 2007，4（4）：55-56.

[3] 刘晓峰，任廷革，高全泉，等.中医处方智能分析系统的研究与实践[J].中国中医药信息杂志，2007，14（10）：97-99.

[4] 孙燕，臧传新，任廷革.SVM方法在《伤寒论》方小样本分类识别中的应用[J].中国中医药信息杂志，2009，16（2）：98-100.

[5] 高全泉，张帆，刘晓峰，等.中医方剂属性特征的获取和知识挖掘实验[J].计算机工程与应用，2011，47（28）：212-214.

[6] 任廷革，张帆，刘晓峰，等.基于智能计算的中医方剂治法模型研究的构思与流程设计[J].北京中医药大学学报，2012，35（8）：524.

（收稿日期：2013-12-01；编辑：华强）

方剂治法模型知识库的扩展设计和建模实验研究

润喉护嗓市场刮起“无糖风”，龙角散全系列零蔗糖

高温梅雨呼吸道敏感，3亿银发群体夏季咽喉迎“大

女性健康新范式：美丽田园携手裸心谷开启“身心整

热血汇山城，大爱暖人心丨第八届“满血行动派公益

友情链接