今天往回退一步,聊聊"本体"这个词到底从哪来。你可能觉得哲学和企业数据治理八竿子打不着,但在我看来,不理解本体的哲学根源,就很难真正用好它。
本体论是什么
本体论(Ontology)这个词源自哲学,字面意思就是对"存在"的研究——什么东西存在?存在的本质是什么?现实世界到底是怎么构成的?听起来很抽象,但它其实回答了一个非常实用的问题:我们怎么确认自己和别人说的是同一件事?
本体论最初是一种对事物进行分类、确定事物存在本质的方式。最朴素的理解是:看得见、摸得着的东西才是存在的。后来学术界慢慢发现,这种理解太窄了。不仅具体的东西存在,抽象的概念也存在——"类""实体类型"甚至人们对某事物的概念性想法,都有其存在的方式。有人甚至把数学对象和想象中的事物也看作存在。
为什么要聊这个?因为企业数据治理面临的根本困境,和哲学家面对的问题高度相似。
举个例子。你们公司财务部说的"成本"和市场部说的"成本",指向的是不是同一个东西?从哲学角度看,这是两个不同的"概念"被同一个词表达了。如果你不追问"成本"在这个语境下的存在本质是什么,直接把两边的数据合并,结果就是一堆垃圾。
维特根斯坦的两个观点
这就引出了一个关键人物——维特根斯坦。
他早期提出过一个观点叫"语言图画论":语言是对世界的逻辑映射,有意义的命题必须能够清晰地与事实对应。这个观点听起来平淡,但其实是大语言模型的理论基础之一——LLM 的核心任务就是通过语言来描述和解释现实世界。
但维特根斯坦后来自己推翻了这个观点。他意识到,语言的意义不仅仅来自逻辑结构,更重要的来源是:它在具体语境中怎么被使用。同一个词在不同的上下文中可能含义完全不同。
比如"bank",在"我去银行取钱"里是金融机构,在"河的两岸是宽阔的河岸"里就是河岸。两个"bank",同一个词,意思完全不一样。
从哲学到企业实践
这个洞察对企业数据治理来说太重要了。你想想,企业里有多少这种"同名异义"的情况?"客户"在销售部、财务部、客服部完全是三个概念。"设备"在生产部和设备管理部可能覆盖不同的范围。"质量"在来料检验和出厂检验中指的东西也不一样。
所以研究本体,本质上就是在研究不同存在的事物在不同上下文中的关系。本体建模不是在玩概念游戏,而是在做一件非常务实的事:把每个业务术语在特定语境下的含义定义清楚,让系统知道当财务说"客户"和销售说"客户"时,分别指的是什么。
本体论告诉我们,"存在"不只是看得见的东西,抽象的概念也需要被定义和确认;分类学告诉我们,最基础的知识组织方式是把事物按层级归类;元数据告诉我们,归类之后还需要标注这些数据在说什么;实体告诉我们,类型定义好之后才有意义地填充具体数据;知识图谱告诉我们,数据驱动和业务驱动是两条不同的路。这五层认知,从哲学根基到工程实践,构成了企业数据治理的概念地基。
我的判断
现在企业界讨论数据治理,绝大多数精力花在了工具和系统上,很少有人愿意花时间把这些基础概念理清楚。但工具解决不了概念对齐的问题。你买最贵的图数据库,用最先进的知识图谱平台,如果团队内部对"什么是客户"都达不成一致,系统再好也是白搭。
下次有人跟你讲"我们要建个知识图谱"或者"我们需要一套本体建模工具"的时候,不妨先问一句:我们团队内部对核心业务概念的理解,已经对齐了吗?如果没有,先别急着选工具。