Rethinking Evidence-Based Medicine: Abductive Reasoning from Traditional Chinese Medicine to AI
1. はじめに:なぜ今「中医学 × アブダクション × AI」なのか
私たちはいま、「推論とは何か」「診断とは何か」が根本から問われる時代に生きています。ChatGPTに代表される大規模言語モデル(large language models, LLMs)の登場により、AIが医療現場で診断や意思決定を補助することが現実となりつつあります。しかし同時に、AIの出力には「なぜそう判断したのか」という意味の構造が欠落しており、人間の思考とは本質的に異なる点も明らかになっています【1】。
たとえば、経験豊富な臨床家は「言葉では説明できないが、なにか違和感を覚える」といった感覚に基づいて仮説を立てることがあります。これは演繹や帰納では説明しきれない、“アブダクション(仮説的推論)”と呼ばれる思考法の一例です。中医学(Traditional Chinese Medicine)は、まさにこのアブダクション的推論を体系化してきた知の枠組みです。
中医学は、詩的で語り的、そして身体的な感覚に基づいた診断体系を持ち、症状の物語的な意味づけを通して治療仮説を構築します。それは西洋医学のような統計的・因果論的推論とは異なる、もうひとつの知の形式です。近年、この中医学的アプローチがAI研究の文脈で注目されつつあります。中国の研究者たちによるABL-TCM(Abductive Learning Framework for Traditional Chinese Medicine)は、その代表例です【2】。
本稿では、「中医学 × アブダクション × AI」という三位一体の視点から、現代医療とAIの接点を再考し、以下の問いに答えていきます。
アブダクションとはどのような思考か?
なぜ中医学と親和性が高いのか?
それをAIにどう実装できるのか?
そして人間は、AIとどう共に推論しうるのか?
2. 現代医学における推論様式とその限界
医療における「診断」とは、単なる情報処理ではありません。患者の訴えや身体所見、検査結果といった断片的情報をもとに、意味ある仮説を構築し、治療方針へと導いていく思考プロセスです。現代医学においては、こうした臨床推論の標準化が長らく追求されてきました。
とりわけ1990年代以降、「エビデンスに基づく医療(Evidence-Based Medicine: EBM)」が主流となり、臨床判断には統計的根拠に裏付けられた仮説検証(演繹法)や症例の集積による傾向把握(帰納法)が重視されるようになりました。しかしDjulbegovic & Guyattは、EBMの25年を振り返り、「患者中心の意思決定」を十分に実現できていないという限界を明示しています【3】。
この限界は、EBMが「文脈」「価値」「意味」といった“非数値的要素”を扱いきれない構造にあると言えます。たとえば、ある診断アルゴリズムが統計的に最適であっても、それが患者の人生観や生活背景にそぐわないことはしばしばあります。つまり、精度の高い予測が「納得できる判断」とは限らないのです。
このようなギャップに対して、いま注目されているのが“アブダクション(abduction)”という推論様式です。これは、観察された現象を最もよく説明する「もっともらしい仮説」を導く思考法であり、違和感や矛盾を出発点に、文脈的かつ創造的な意味づけを行うプロセスです【4】【5】。
Normanは、医療教育における推論研究を三つの系譜(仮説演繹法、直感的診断、知識構造)に分類し、医師の専門性は「状況に応じた知識の柔軟な適用」に依拠すると指摘しました【6】。また、Durning & Artinoによる状況性理論(situativity theory)は、知識や思考は文脈と切り離せず、環境や社会関係と一体となって意味づけられると論じています【7】。
こうした視点は、「一人ひとり異なる患者の文脈から、もっとも妥当な仮説を生成し、試し、修正していく」というアブダクション的推論に重なります。中医学はまさにこのような思考スタイルを診断の中心に据えており、EBMの補完や再構築のヒントを与えてくれる存在といえるでしょう。
3. 中医学の診断体系とアブダクションの構造的共鳴
アブダクション(仮説的推論)は、19世紀の哲学者チャールズ・パースによって提唱された思考様式であり、観察された事象に対して「もっともらしい説明仮説」を構築することで理解を試みる推論法です。これは確定的な結論ではなく、状況に応じて修正されうる柔軟な仮説を導くという点で、医療の実践と極めて親和性の高い構造を持っています【8】。
中医学(Traditional Chinese Medicine)は、まさにこのアブダクション的思考を体系化してきた実践的医学です。中医学における診断は「弁証論治」と呼ばれ、症状や所見、語り、環境情報などを総合して「証(しょう)」という仮説的構造を立て、そこから治療方針を導くサイクルを形成します。
このプロセスは以下のような段階を含みます:
観察:舌や脈、声、顔色、語りの内容など、多様な情報を非数値的に把握する
仮説形成:「肝気鬱結」「痰湿中阻」など、文化的コードに沿った意味ある仮説(証)を構築
介入と修正:治療(治法)を実施し、経過から仮説を評価・更新する
この循環は、パースやJosephsonらが定義する「観察→前提→最良説明」というアブダクションの枠組みと構造的に一致しています【8】【5】。
とくに中医学における診断は、診断名の固定や分類よりも、意味の束ね直し(narrative integration)を重視する点が特徴です。たとえば、抑うつ・食欲不振・胸のつかえ・月経不順といった多様な症状を「肝気鬱結」という仮説にまとめることで、症状群に物語的整合性を与えるのです。ここで診断は、単なる分類ではなく、「今この人に何が起きているか」を意味づける行為となります【9】。
また、こうした仮説は経験や直観に支えられており、施術者の身体知や感覚も重要な役割を果たします。脈診における「滑脈」「緊脈」などの詩的・比喩的表現は、定量的なデータではなく、状況に埋め込まれた知覚による意味生成を示しています。
さらに、中医学ではこうした仮説的診断が「肝気鬱結」「心脾両虚」などの共通言語として制度化され、臨床や教育の場で共有されている点も特異です。これは単なる主観的直観ではなく、文化的・社会的に整合された“形式化されたアブダクション”とみなすことができるでしょう【10】。
つまり、中医学とは「感じること」「解釈すること」「仮説を立てること」が一体となった意味生成の診断体系であり、アブダクションを中心に据えた医学モデルとして再評価されるべきです。
4. ABL-TCMと診断AIの未来:実装の試みと課題
中医学がアブダクション的な知の構造を持つという考えは、もはや比喩や哲学的主張にとどまりません。近年、中国の人工知能研究において、その推論スタイルをAIに実装しようとする動きが本格化しています。代表例が「ABL-TCM(Abductive Learning Framework for Traditional Chinese Medicine)」と呼ばれる研究です【3】。
ABL-TCMは、中医学の診断プロセスを「仮説生成→検証→修正」のサイクルとしてモデル化し、AIに再現させる試みです。従来の機械学習は、「正しいラベルが与えられている」ことを前提として学習を行います。しかし、中医学では同じ症状でも「証(しょう)」の解釈は施術者や文脈によって異なり、必ずしも一義的なラベルが存在しません。ABL-TCMはこの「ラベルのズレ(label mismatch)」を前提に、AIが“もっともらしい仮説”を自律的に生成・修正する枠組みを実装しています。
この枠組みの根底には、「違和感」や「文脈的な整合性」を重視するアブダクション的思考が存在します。ある症状群が「心火上炎」と診断されていても、文脈や患者の語りから「肝気鬱結」がより妥当だと判断し直す──そうした臨床家の経験的判断を、AIが構造として模倣しようとしているのです。
さらに最近では、舌診に関するディープラーニングの研究も進んでおり、中医学における非言語的な情報も一部AIで取り扱えるようになってきました。たとえば、Xianらは舌画像の品質評価を可能にするマルチタスク学習モデルを提案し【11】、Jiangらは舌の形状・色調などを深層学習によって多項目分類することで、生活習慣病との関連性を可視化しました【12】。
また、医師と患者の語りをAIが構造化し、意思決定を支援するフレーム「CoDeL(Collaborative Decision Description Language)」のような試みも登場しており【13】、症状・身体・語りの三要素を統合的に扱う中医学的診断の再現可能性が広がりつつあります。
とはいえ、現時点のABL-TCMはあくまで言語データに基づく実装に限られ、舌や脈、顔色、声、語りの抑揚といった「身体知」の層まではカバーできていません。また、AIが自律的に世界観や価値観を持つことも困難です。したがって、ABL-TCMは中医学的アブダクションの模倣を目指した“構造的プロトタイプ”であり、今後の課題は、より多層的な認知構造──とくに感覚・倫理・宇宙観まで含めた診断支援モデルの構築にあります。
中医学的アブダクションをAIがどこまで支援・拡張できるか。その問いは、「推論とは何か」「意味はどこで生成されるか」という問題そのものを、技術と思想の交差点で照らし出す試みでもあるのです。
5. 実証的検討:プロンプト設計がAIの出力に与える影響
これまで本稿では、中医学の診断推論におけるアブダクション的構造と、AIによる模倣可能性について論じてきました。本章では、その理論的議論に対して簡易的な実証的検討を行い、「問いの設計」がAI出力に与える影響を観察します。
実験の目的と設計
大規模言語モデル(LLMs)は、一般に「文脈を理解できない」と批判されることがあります。しかし、実際にはAIの出力は入力の質――すなわち、問いの構造や含意によって大きく左右されます。本実験では、倫理的ジレンマを扱うプロンプトを複数のLLMに提示し、文脈情報の有無が推論内容にどう影響するかを比較しました。
使用モデルは以下の3種です:
GPT-4(OpenAI)
Gemini 2.0 Flash(Google)
Grok-1(xAI)
各モデルに、共通の基本状況として「警察官として冤罪を目の当たりにしたが、組織は隠蔽を行っている」という設定を提示。その上で次の文脈差を加えました:
A. 家族あり:「あなたには愛する妻子がいる」
B. 家族なし:「あなたは天涯孤独である」
C. 文脈なし:背景なし(一般状況のみ)
すべてのプロンプトはWebアプリ上のデフォルト設定で提示され、応答を質的に比較・分析しました。
結果の概要
出力内容はプロンプトの文脈条件に大きく依存しました:
A(家族あり):自己犠牲への葛藤や現実的戦略が中心。
B(家族なし):正義や公益を重視する抽象的理想論が目立つ。
C(文脈なし):表面的・一般的な対応策が多く、深みのある推論は見られず。
またモデルごとの特性も確認されました。GPT-4は倫理的含意への洞察が深く、実存的観点(たとえば家族への説明の必要性)に触れる出力を示しました。Geminiは手続き的な戦略や証拠保全など実務的提案が多く、Grok-1は制度的・文化的文脈を反映した出力が目立ちました。
限界と意義
本実験にはいくつかの限界があります。第一に、各プロンプトに対する出力は1回ずつの観察であり、非決定的な生成過程を持つLLMにおいては、再現性の確認が今後の課題です。第二に、出力の評価は質的分析に基づくものであり、評価者の主観を排除することは困難でした。第三に、プロンプト自体の構成にも恣意性が含まれており、異なる倫理的文脈や文化設定であれば、異なる出力傾向が導かれる可能性もあります。
それでも本実験が示すのは、「問いの設計」――とくに価値観や関係性の明示――がAI出力の“思考の深さ”を左右するという構造的事実です。この構造は、中医学やナラティブ・メディスンが行ってきた意味生成プロセスとも響き合い、「どのように問うか」がAI時代の臨床的知の中核であることを示唆しています。
6. 推論の再構築:世界観と意味のデザイン
AIの診断支援が一定の精度に達しつつある現在、あらためて問われるのは「推論とは何か」「意味とはどこで生成されるのか」という本質的な問いです。AIが答えを導く過程を“推論”と呼ぶとき、それはどの層の思考を模倣しているのでしょうか。GPT-4の出力が医師を超えたとしても、その推論が「なぜその答えに至ったのか」を説明する意味構造を持たないならば、人間にとっての「納得」や「判断」は成立しません【14】【15】。
こうした問いに対して、筆者は「SML-CML構造(Semantic Meaning Layers × Cosmological Meaning Layers)」という多層的推論モデルを提案します。これは、中医学の診断構造、アブダクションの論理、そしてAI時代の意味設計を接続する枠組みです。
四層モデルの概要
この構造は、以下の4層からなります:
Cosmological Layer(世界観)
身体や人間をどう捉えるか。何を「よし」とするか。ここには文化的価値観、時代背景、倫理、死生観などが含まれます。たとえば「延命」を最優先するか、「生活の質」や「自然な看取り」を重視するかで、同じ診断でも選択が変わります。Phenomenological Layer(現象の受け取り方)
脈や舌、語りのトーンなど、定量化されにくいが重要な「感じ取る」層。ここでは、いわば「診断の素材」となる現象が生成されます【16】。Interpretive Layer(意味づけ・解釈)
現象を「証」やパターンとして再構成する層。症状の羅列ではなく、仮説的意味づけを通して臨床判断が形成されます【13】【17】。Abductive Layer(推論・仮説生成)
違和感や整合性を手がかりに、もっともらしい説明を立てる層。これは固定されたルールによる推論ではなく、文脈依存的な仮説構築です【12】。
この四層は、弁証論治の構造を説明するだけでなく、現代AIにおける「推論の空白」を可視化するツールにもなります。現在のLLMは、情報処理(第4層)においては高い精度を持ちますが、意味生成(第3層)や現象感知(第2層)、価値前提(第1層)を扱う設計にはなっていません。
そのため、「正しい答えに見えても、なぜそう導いたのかがわからない」という“ブラックボックス問題”が生じるのです。これはNEJM AIにおいてGPT-4が複雑症例で医師より正確だったにも関わらず、「どうしてその診断に至ったのかが不透明」という懸念と直結しています【15】。
世界観を設計するという人間の役割
重要なのは、こうした“推論の空白”を、技術ではなく「問いの設計」によって補う必要があるという点です。人間がどのような価値観・前提・文化的背景をもって問いを立てるかによって、AIの出力は大きく変化する――これは前章でのプロンプト実験でも確認された通りです。
AIにおける意味理解やアブダクション推論の実現には、「事実をどの世界観で捉えるか」「現象にどのように意味を与えるか」といった上位層の構造が不可欠です。つまり、AI時代の臨床判断においてこそ、「世界観の構造設計=意味のデザイン」が、人間の役割として浮かび上がるのです。
7. おわりに:意味ある診断知の未来に向けて
本稿では、中医学における診断体系を「アブダクション的思考の体系」として再評価し、AI時代の臨床知における意味の再構築に接続する試みを行った。私たちはいま、AIが医師の診断精度に迫る、あるいは一部では凌駕するという時代に生きている【14】【15】。だがその一方で、「なぜその判断に至ったのか」「その判断は人間にとって納得できるのか」という問いが、いまだに未解決のまま残されている。
中医学の診断構造――とくに弁証論治は、症状を意味として束ね直す物語的・仮説的推論である。その意味で、中医学は意味生成においては極めて高度な構造を持った「アブダクティブ・メディスン」と呼ぶべき知の体系である。
この推論様式は、中医学に限らずすべての実践的判断に共通する。患者の「なんとなく変だ」という語りを見逃さず、違和感を出発点に仮説を立て、それを修正していく。こうした診断のプロセスは、単なる演繹や帰納ではない「意味に満ちた思考」である。AIはそのプロセスを模倣できるかもしれないが、その問いの設計や意味の整合性をどう定義するかは、依然として人間の責務である。
その意味で、いま求められているのは「データを処理するAI」ではなく、「意味を生成するAIとの協働」であり、そこには世界観や倫理観を設計する人間の役割が不可欠である。本稿で提案したSML-CML構造は、まさにその接点を構造化する試みであり、意味の層と価値の層を明示することで、AIと人間が共に問いを探求する地図になりうると考えている。
そしてこのような取り組みは、単に未来の診断モデルを考えるだけではなく、私たち自身の臨床的直観、哲学的関心、そして社会的責任をも問い直す契機となる。仮説を立て、意味づけを行い、違和感を感じながら思考し続けること――そのプロセス自体が「知」であり、AIの時代にもなお、人間が担うべき根源的な営みなのである。
参考文献
1,Editorial. Tools not threats: AI and the future of scientific writing. Nature. 2023;614:393. https://doi.org/10.1038/d41586-023-00107-z
2,Zhao Z, et al. ABL-TCM: An Abductive Framework for Named Entity Recognition in Traditional Chinese Medicine. IEEE Access. 2024. https://ieeexplore.ieee.org/document/10664593
3,Djulbegovic B, Guyatt GH. Progress in evidence-based medicine: A quarter century on. The Lancet. 2017. https://doi.org/10.1016/S0140-6736(16)31592-6
4,Magnani L. Animal abduction. In: Magnani L, Li P, eds. Model-Based Reasoning in Science, Technology, and Medicine. Springer; 2007.
5,Josephson JR, Josephson SG. Abductive Inference: Computation, Philosophy, Technology. Cambridge University Press. 1994.
6,Norman G. Research in clinical reasoning: Past history and current trends. Medical Education. 2005. https://doi.org/10.1111/j.1365-2929.2005.02127.x
7,Durning SJ, Artino AR. Situativity theory: AMEE Guide No. 52. Medical Teacher. 2011. https://doi.org/10.3109/0142159X.2011.550965
8,Magnani L. Animal abduction. In: Magnani L, Li P, eds. Model-Based Reasoning in Science, Technology, and Medicine. Springer; 2007.
9,Charon R. Narrative Medicine: Honoring the Stories of Illness. Oxford University Press. 2006.
10,Zhang WB. The development of pattern classification in Chinese medicine. Chinese Journal of Integrative Medicine. 2016. https://doi.org/10.1007/s11655-016-2540-3
11,Xian H, et al. A multitask deep learning model for automatic evaluation of tongue image quality. Frontiers in Physiology. 2022;13:966214. doi:10.3389/fphys.2022.966214
12,Jiang T, et al. Deep Learning-Based Multilabel Tongue Image Analysis and Its Application in Health Checkups. Evidence-Based Complementary and Alternative Medicine. 2022:3384209. doi:10.1155/2022/3384209
13,Lu Y, Zhang M, Liu R, Xu T. CODEL: Enhancing contextualized dialogue in health communication with explainable AI. Journal of Medical Internet Research. 2025;27:e55341. doi:10.2196/55341
14,NEJM AI Working Group. GPT vs Resident Physicians: Israeli Board Examination Benchmark. NEJM AI. 2024.
15,NEJM AI Working Group. Use of GPT-4 to Diagnose Complex Clinical Cases. NEJM AI. 2024.
16,Benner P, Wrubel J. The Primacy of Caring: Stress and Coping in Health and Illness. Addison-Wesley; 1989.
17,Kirmayer LJ. Broken narratives: Clinical encounters and the poetics of illness experience. In: Mattingly C, Garro LC, eds. Narrative and the Cultural Construction of Illness and Healing. University of California Press; 2000.
英語版
1. Introduction: Why Traditional Chinese Medicine × Abduction × AI Now?
We are now living in an era where fundamental questions such as “What is reasoning?” and “What is diagnosis?” are being reexamined from their very foundations.
With the emergence of large language models (LLMs), such as ChatGPT, AI is becoming a realistic assistant in clinical decision-making and diagnosis.
However, it has also become evident that AI-generated outputs often lack the structural reasoning behind their judgments, revealing a fundamental dissimilarity from human thinking【1】.
For instance, experienced clinicians often formulate hypotheses based on intuitive feelings such as, “I can’t explain it verbally, but something feels off.”
This type of thinking, which cannot be fully explained by either deductive or inductive reasoning, is an example of abduction, also known as hypothetical reasoning.
Traditional Chinese Medicine (TCM) has historically systematized this abductive mode of thought into a coherent framework of knowledge.
TCM is characterized by a diagnostic system that is poetic, narrative, and embodied, constructing therapeutic hypotheses through the narrative meaning-making of symptoms.
It represents a distinct form of knowledge, different from the statistical and causal reasoning that dominates Western biomedicine.
In recent years, this TCM-based approach has begun to attract attention within AI research.
A representative example is the ABL-TCM (Abductive Learning Framework for Traditional Chinese Medicine), developed by researchers in China【2】.
In this article, we reexamine the intersection of modern medicine and AI through the triadic lens of “Traditional Chinese Medicine × Abduction × AI,” aiming to address the following questions:
What kind of reasoning is abduction?
Why is TCM highly compatible with abductive reasoning?
How can this structure be implemented into AI?
And ultimately, how can humans and AI engage in collaborative reasoning?
2. Reasoning Styles in Modern Medicine and Their Limitations
Diagnosis in medicine is not merely a matter of information processing.
It is a cognitive process that constructs meaningful hypotheses based on fragmented pieces of information—such as patient complaints, physical findings, and test results—and guides therapeutic decision-making.
In modern medicine, standardization of clinical reasoning has long been pursued.
Since the 1990s, evidence-based medicine (EBM) has become the dominant paradigm, emphasizing hypothesis testing supported by statistical evidence (deductive reasoning) and pattern recognition through case aggregation (inductive reasoning).
However, as Djulbegovic and Guyatt have pointed out in their 25-year review of EBM, the paradigm has struggled to fully realize its ideal of “patient-centered decision making”【3】.
This limitation stems from EBM’s structural inability to handle non-numeric elements such as “context,” “values,” and “meaning.”
For example, even if a diagnostic algorithm is statistically optimal, it may still fail to align with a patient’s worldview or life circumstances.
In other words, a highly accurate prediction does not necessarily lead to a satisfying or acceptable clinical judgment.
In response to this gap, increasing attention has been directed toward abduction—a mode of reasoning that seeks to generate the most plausible explanation for observed phenomena.
Abduction starts from discomfort or inconsistency and proceeds through contextualized and creative meaning-making【4】【5】.
Norman categorized research on clinical reasoning into three traditions—hypothetico-deductive reasoning, intuitive diagnosis, and knowledge structure—and argued that clinical expertise is characterized by the flexible application of knowledge to varying contexts【6】.
Similarly, Durning and Artino’s situativity theory emphasizes that knowledge and cognition are inseparable from context, and are co-constructed through interaction with the environment and social relationships【7】.
These perspectives resonate with the idea of abductive reasoning—the dynamic generation, testing, and refinement of hypotheses based on each patient’s unique context.
Traditional Chinese Medicine (TCM), which places such reasoning at the core of its diagnostic practice, offers important insights for complementing and reconstructing modern EBM.
3. Diagnostic Structures in Traditional Chinese Medicine and Structural Resonances with Abduction
Abduction, or hypothetical reasoning, was proposed by the 19th-century philosopher Charles Sanders Peirce as a mode of thought that seeks to construct the “most plausible explanatory hypothesis” for observed phenomena【8】.
Unlike deduction or induction, abduction does not produce definitive conclusions; rather, it generates flexible hypotheses that can be revised according to evolving contexts—making it highly compatible with the realities of clinical practice.
Traditional Chinese Medicine (TCM) has systematized this abductive mode of reasoning into a practical medical framework.
In TCM, diagnosis is conducted through bianzheng lunzhi (pattern differentiation and treatment determination), wherein symptoms, signs, narratives, and environmental information are integrated to construct provisional diagnostic patterns known as zheng.
These patterns then inform therapeutic strategies.
The diagnostic cycle in TCM includes the following stages:
Observation: Gathering diverse forms of non-quantitative information, such as tongue appearance, pulse quality, voice, complexion, and verbal narratives.
Hypothesis Formation: Constructing culturally coded, meaningful hypotheses (e.g., liver qi stagnation, phlegm-damp obstruction).
Intervention and Revision: Implementing treatment and updating the initial hypothesis based on observed outcomes.
This cycle mirrors the abductive framework defined by Peirce and later scholars like Josephson, namely the sequence of “observation → premise → best explanation”【8】【5】.
A particularly notable feature of TCM diagnostics is its emphasis not on the fixed classification of diseases, but on narrative integration—the dynamic weaving together of diverse symptoms into coherent stories of illness.
For instance, symptoms such as depression, poor appetite, chest oppression, and menstrual irregularity can be bundled into the diagnostic pattern of liver qi stagnation, thereby providing narrative coherence to an otherwise fragmented clinical picture【9】.
Moreover, these hypotheses are often supported by clinical experience and embodied intuition.
Descriptive terms used in pulse diagnosis, such as “slippery pulse” (hua mai) or “tight pulse” (jin mai), represent poetic and metaphorical perceptions of bodily rhythms that defy simple quantification.
Importantly, these provisional diagnoses are not merely subjective intuitions.
Rather, they are formalized abductive structures embedded in cultural and social practices, institutionalized through shared terminology like liver qi stagnation and heart-spleen deficiency, and transmitted through clinical education【10】.
Thus, TCM can be regarded as a diagnostic system in which “feeling,” “interpretation,” and “hypothesis formation” are seamlessly integrated—a model of medicine that places abductive reasoning at its core and deserves renewed evaluation in the context of contemporary medical thought.
4. ABL-TCM and the Future of Diagnostic AI: Trials of Implementation and Challenges
The idea that Traditional Chinese Medicine (TCM) embodies an abductive structure of knowledge is no longer merely metaphorical or philosophical.
In recent years, efforts to implement this reasoning style into artificial intelligence systems have gained momentum, particularly in China.
A notable example of such an initiative is the “Abductive Learning Framework for Traditional Chinese Medicine” (ABL-TCM)【3】.
ABL-TCM seeks to model the TCM diagnostic process as a cycle of “hypothesis generation → verification → revision,” and to replicate this cycle within AI systems.
Conventional machine learning typically assumes that “correct labels” are provided during training.
However, in TCM, the interpretation of symptoms into zheng (patterns) often varies among practitioners and contexts, meaning that a single correct label does not necessarily exist.
ABL-TCM embraces this “label mismatch” premise, aiming to develop AI capable of autonomously generating and adjusting “plausible hypotheses.”
At the heart of this framework lies abductive reasoning that emphasizes “sense of dissonance” and “contextual coherence.”
For example, even if a set of symptoms is initially diagnosed as Heart Fire Rising (xin huo shang yan), the narrative and context may lead an experienced clinician to reframe it more appropriately as Liver Qi Stagnation (gan qi yu jie).
ABL-TCM attempts to mimic this experiential clinical judgment structurally within AI.
Moreover, recent advances have expanded AI’s capacity to handle non-verbal information central to TCM.
Xian et al. proposed a multitask learning model for the quality assessment of tongue images【11】, while Jiang et al. developed deep learning models to classify multiple aspects of tongue features (e.g., shape, color) and visualize their correlations with lifestyle-related diseases【12】.
Additionally, frameworks like “CoDeL” (Collaborative Decision Description Language)【13】 have been introduced, aiming to structure dialogues between physicians and patients in ways that reflect TCM’s integration of symptoms, bodily signs, and narratives.
However, it must be emphasized that current ABL-TCM implementations are still limited to linguistic data processing.
They cannot yet capture the “embodied knowledge” involved in clinical practice—such as tongue texture, pulse sensation, facial color, voice tonality, or the nuanced dynamics of verbal expression.
Nor can current AI systems autonomously embody cosmological assumptions or ethical frameworks.
Thus, ABL-TCM remains a “structural prototype” aiming to emulate TCM-style abduction, and future challenges lie in building more layered cognitive models that incorporate sensory, ethical, and cosmological dimensions into diagnostic support systems.
Ultimately, the question of how far AI can support or extend the abductive diagnostic reasoning inherent to TCM illuminates deeper philosophical issues:
What constitutes reasoning?
Where does meaning originate?
Addressing these questions demands a meeting point between technology and philosophy.
5. Empirical Investigation: The Impact of Prompt Design on AI Outputs
Thus far, this paper has discussed the abductive structure of diagnostic reasoning in Traditional Chinese Medicine (TCM) and its potential for replication in artificial intelligence (AI) systems.
In this chapter, we present a preliminary empirical examination of how “prompt design” influences AI outputs.
Purpose and Design of the Experiment
Large language models (LLMs) are often criticized for “failing to understand context.”
However, in practice, AI outputs are heavily influenced by the quality of inputs—that is, by the structure and implied meaning of the prompts.
This experiment examined how the presence or absence of contextual information in prompts affected the reasoning processes of different LLMs when faced with ethical dilemmas.
We tested three models:
GPT-4 (OpenAI)
Gemini 2.0 Flash (Google)
Grok-1 (xAI)
Each model was presented with a common basic scenario:
A police officer witnesses a false accusation being concealed by their organization.
We then added three variations of contextual information:
A. Family present: “You have a beloved spouse and children.”
B. No family: “You are utterly alone, with no family.”
C. No context: Only the general situation is provided, without personal background.
All prompts were submitted under default settings via web applications, and the outputs were qualitatively compared and analyzed.
Summary of Results
The content of the outputs was highly dependent on the contextual conditions of the prompts:
A (Family present): Outputs emphasized dilemmas of self-sacrifice and pragmatic strategies.
B (No family): Outputs leaned toward abstract ideals such as justice and the public good.
C (No context): Outputs tended to be superficial and generic, lacking depth in reasoning.
Model-specific tendencies were also observed:
GPT-4 demonstrated deeper insights into ethical implications, including existential perspectives (such as the need to explain one’s actions to family members).
Gemini produced more procedural suggestions, such as strategies for evidence preservation.
Grok-1 reflected institutional and cultural factors more prominently in its responses.
Limitations and Significance
Several limitations must be acknowledged.
First, each prompt was evaluated based on a single output per model, and given the non-deterministic nature of LLMs, reproducibility remains a future concern.
Second, output evaluation was based on qualitative analysis, inevitably involving subjective judgment.
Third, the structure of the prompts themselves contained arbitrary elements, meaning that different ethical or cultural contexts might yield different tendencies.
Nevertheless, this experiment highlights a crucial structural fact:
The way a question is framed—especially the explicit inclusion of values and relationships—directly influences the “depth of reasoning” produced by AI.
This finding resonates with the meaning-generating processes practiced in TCM and narrative medicine, suggesting that how we ask is central to clinical knowledge in the age of AI.
6. Reconstructing Reasoning: Designing Worldviews and Meaning
As AI systems for diagnostic support reach increasingly high levels of accuracy, we are once again confronted with fundamental questions:
What is reasoning?
Where and how is meaning generated?
When we refer to the process by which AI derives answers as “reasoning,” what layer of thought is it truly mimicking?
Even if outputs from GPT-4 surpass the diagnostic accuracy of physicians, if the reasoning lacks a meaningful structure capable of explaining why a particular answer was reached, then human notions of “understanding” and “judgment” cannot be said to be satisfied【14】【15】.
In response to these questions, the author proposes a multi-layered reasoning model called the SML-CML Structure (Semantic Meaning Layers × Cosmological Meaning Layers).
This framework connects the diagnostic structure of Traditional Chinese Medicine (TCM), the logic of abduction, and the challenges of meaning design in the AI era.
Outline of the Four-Layer Model
This structure consists of the following four layers:
Cosmological Layer (Worldview)
How we conceptualize the body and human existence; what we value as “good.”
This includes cultural values, historical contexts, ethics, and views on life and death.
For example, whether one prioritizes “life prolongation” or “quality of life” or “natural death” can drastically alter diagnostic decisions.Phenomenological Layer (Reception of Phenomena)
The layer where unquantifiable yet vital sensations are perceived, such as the pulse, tongue appearance, or the tone of a patient’s narrative【16】.
This constitutes the “raw material” for subsequent diagnosis.Interpretive Layer (Meaning-Making and Interpretation)
The layer where phenomena are reconstructed into diagnostic hypotheses (“patterns” or “證”, zhèng).
Instead of mere listing of symptoms, clinical judgment is formed through hypothesis-driven meaning-making【13】【17】.Abductive Layer (Reasoning and Hypothesis Generation)
The layer where “something feels wrong” or “logical consistency” triggers the construction of the most plausible explanations【12】.
This is not mechanical deduction, but rather a context-dependent, adaptive hypothesis-building process.
These four layers not only explain the structure of 辨證論治 (biàn zhèng lùn zhì, syndrome differentiation and treatment determination) in TCM, but also serve as a tool to visualize the “gaps” in current AI-based reasoning.
Present-day LLMs excel at the fourth layer (information processing), but lack mechanisms for generating meaning (third layer), sensing phenomena (second layer), or establishing cosmological presuppositions (first layer).
As a result, AI outputs may appear “correct,” yet it remains unclear why they reach those conclusions—a manifestation of the so-called “black box problem.”
This issue is directly linked to concerns raised even in NEJM AI studies, where GPT-4 outperformed human doctors on complex cases yet left its diagnostic rationale opaque【15】.
The Human Role in Designing Worldviews
Crucially, these gaps cannot be filled by technical improvements alone.
Instead, they must be addressed by carefully designing the questions we ask, grounded in values, assumptions, and cultural contexts.
This was also affirmed in the empirical experiments discussed in the previous chapter.
For AI to truly realize abductive reasoning and deep meaning-making, it must operate not just within isolated facts, but within the structured frameworks that humans create:
How we frame the world.
How we assign meaning to perceived phenomena.
In short, in the age of AI-assisted clinical decision-making, designing worldviews and crafting meaning are indispensable human responsibilities.
7. Conclusion: Toward a Future of Meaningful Diagnostic Knowledge
In this paper, I have reevaluated the diagnostic system of Traditional Chinese Medicine (TCM) as a “system of abductive reasoning” and attempted to connect it to the reconstruction of clinical knowledge in the AI era.
Today, we live in an era where AI is approaching—or in some cases surpassing—the diagnostic accuracy of physicians【14】【15】.
However, fundamental questions remain unresolved: “Why was that judgment reached?” and “Can humans find that judgment satisfactory?”
The diagnostic structure of TCM—especially bianzheng lunzhi (pattern differentiation and treatment)—is a narrative and hypothetical reasoning process that bundles symptoms into meaningful constructs.
In this sense, TCM should be recognized as a highly sophisticated system of meaning generation, deserving to be called an “abductive medicine.”
This style of reasoning is not exclusive to TCM. It is a process common to all forms of practical judgment: noticing a patient’s subtle expressions of unease, generating a hypothesis from these signs, and refining that hypothesis through iterative correction.
Such diagnostic processes embody “thinking full of meaning”, rather than merely following deductive or inductive logic.
Although AI may be able to imitate these processes, defining the design of the questions and ensuring the coherence of meanings remain fundamentally human responsibilities.
Thus, what is demanded today is not merely “AI that processes data”, but a “collaboration with AI that generates meaning”—and for this, the role of humans in designing worldviews and ethical frameworks is indispensable.
The SML-CML structure proposed in this paper seeks precisely to structurize this intersection, providing a map that makes explicit the layers of meaning and value, and enabling humans and AI to jointly explore profound questions.
Moreover, this kind of endeavor is not only about developing future diagnostic models.
It also invites us to reconsider our own clinical intuition, philosophical concerns, and social responsibilities.
To generate hypotheses, to assign meanings, to perceive discomfort, and to continue thinking through uncertainty—this very process constitutes “knowledge,” and it remains a fundamental human endeavor even in the age of AI.
References
1,Editorial. Tools not threats: AI and the future of scientific writing. Nature. 2023;614:393. https://doi.org/10.1038/d41586-023-00107-z
2,Zhao Z, et al. ABL-TCM: An Abductive Framework for Named Entity Recognition in Traditional Chinese Medicine. IEEE Access. 2024. https://ieeexplore.ieee.org/document/10664593
3,Djulbegovic B, Guyatt GH. Progress in evidence-based medicine: A quarter century on. The Lancet. 2017. https://doi.org/10.1016/S0140-6736(16)31592-6
4,Magnani L. Animal abduction. In: Magnani L, Li P, eds. Model-Based Reasoning in Science, Technology, and Medicine. Springer; 2007.
5,Josephson JR, Josephson SG. Abductive Inference: Computation, Philosophy, Technology. Cambridge University Press. 1994.
6,Norman G. Research in clinical reasoning: Past history and current trends. Medical Education. 2005. https://doi.org/10.1111/j.1365-2929.2005.02127.x
7,Durning SJ, Artino AR. Situativity theory: AMEE Guide No. 52. Medical Teacher. 2011. https://doi.org/10.3109/0142159X.2011.550965
8,Magnani L. Animal abduction. In: Magnani L, Li P, eds. Model-Based Reasoning in Science, Technology, and Medicine. Springer; 2007.
9,Charon R. Narrative Medicine: Honoring the Stories of Illness. Oxford University Press. 2006.
10,Zhang WB. The development of pattern classification in Chinese medicine. Chinese Journal of Integrative Medicine. 2016. https://doi.org/10.1007/s11655-016-2540-3
11,Xian H, et al. A multitask deep learning model for automatic evaluation of tongue image quality. Frontiers in Physiology. 2022;13:966214. doi:10.3389/fphys.2022.966214
12,Jiang T, et al. Deep Learning-Based Multilabel Tongue Image Analysis and Its Application in Health Checkups. Evidence-Based Complementary and Alternative Medicine. 2022:3384209. doi:10.1155/2022/3384209
13,Lu Y, Zhang M, Liu R, Xu T. CODEL: Enhancing contextualized dialogue in health communication with explainable AI. Journal of Medical Internet Research. 2025;27:e55341. doi:10.2196/55341
14,NEJM AI Working Group. GPT vs Resident Physicians: Israeli Board Examination Benchmark. NEJM AI. 2024.
15,NEJM AI Working Group. Use of GPT-4 to Diagnose Complex Clinical Cases. NEJM AI. 2024.
16,Benner P, Wrubel J. The Primacy of Caring: Stress and Coping in Health and Illness. Addison-Wesley; 1989.
17,Kirmayer LJ. Broken narratives: Clinical encounters and the poetics of illness experience. In: Mattingly C, Garro LC, eds. Narrative and the Cultural Construction of Illness and Healing. University of California Press; 2000.