查看原文
其他

打破黑盒子,因果推断让“AI” 知其所以然

龚晨霞 朋湖网 2024-04-15


如果没有对因果关系的推理能力,AI的发展将从根本上受到限制。


作者|龚晨霞


过去十几年,得益于技术的进步和社会的发展,人工智能在各行各业的渗透都达到了惊人的速度,尤其在消费互联网领域更是功不可没。但自2015年进入产业互联网时代以来,由于TO B 领域程序复杂、惯性高,人工智能的应用发生了明显的变化,从性能驱动逐渐转向关注风险,毕竟在这些领域,人工智能若犯错,代价将高得多。


因为,AI 与可思考、可推断、可决策的人类相比,还只是接受数据训练、数据学习的工具,最大的问题还是个无法解释的“黑盒子”。


于是,2011年图灵奖得主,贝叶斯网络之父Judea Pearl在2019年的著作《因果之书:因果关系的新科学(The Book of Why: The New Science of Cause and Effect)》中断言,“如果没有对因果关系的推理能力,AI的发展将从根本上受到限制”。


7月12日,数据智能基础软件供应商的九章云极DataCanvas发布突破性开源技术成果——YLearn因果学习开源项目。据了解,这是全球首款一站式处理因果学习完整流程的开源算法工具包,率先同时解决了因果学习中“因果发现、因果量识别、因果效应估计、反事实推断和策略学习”五大关键问题,可助力政府和企业完成从预测到决策的跨越。

    

AI,变得可理解了。


01


机器学习的现实困境:


泛化能力差、缺乏解释性、决策支持能力不足


因果推断如此重要,正是因为大数据时代机器学习的苦“知其然,但不知其所以然”久矣。发布会上,九章云极DataCanvas联合创始人暨CTO尚明栋提到了Judea Pearl对AI和因果推断的理论,表明此次发布产品的设计初衷,正是因为人工智能的发展所需。


事实上,机器学习正面临着不少现实困境,正如九章云极DataCanvas主任架构师杨健所言,机器学习的泛化能力差、缺乏解释性、决策支持能力不足。


泛化能力差指的是机器学习基于相关关系的拟合是不可靠的,模型在拟合线上的表现不稳定,会出现数据漂移等问题。缺乏解释性则是指DL(深度学习,Deep Learning)算法的解释性依然是个有待突破的重要课题;而ML(机器学习,Machine Learning)算法的解释性也非常有限。最后,决策支持能力不足表现为没有因果推断的支撑,仅仅靠对未来结果的预测,无法提供有效的行动策略选项,而要做出数据驱动的决策,理解因果关系是关键。


杨健表示,预测和决策其实存在着很大区别以具体的场景为例:预测任务可表示预测某产品下个月的销售收入和净利,决策任务则指的是需要决策出如何设定产品价格,分别可以带来最高的销售收入和净利;预测任务可以是预测哪些用户有流失风险,而决策是要给出可以有效挽留有流失风险客户的干预方案。


这种区别实际上正是没有因果推断下人工智能的瓶颈。


清华大学计算机系长聘副教授、博士生导师崔鹏在发布会上表示,人工智能问题根源就在“知其然,但不知其所以然”,所以训练和测试的数据不能举一反三、不通用、不可靠。因此,崔鹏进一步指出,人工智能的统计基础不应该是关联性,而是因果性。关联本身机制简单,不可解释、结构不稳定,而因果性的机制复杂,模型可解释,结构稳定,这为模型的稳定、解释性和算法的公平性等都提供了帮助,“因果统计将在新一代人工智能理论基础层面扮演重要角色”。


02


YLearn因果学习开源项目发布,


从预测到决策,帮助AI可被理解


通过结合学术和市场需求的观察,九章云极DataCanvas开源项目研发团队发现,尽管目前广泛应用的基于机器学习得出的业务“预测”结果在提升业务收益方面的效果已经十分显著,但随着政府和企业对于“自主AI”和“智能决策”的需求日益旺盛,决策者需要一个让人可理解的、能够解释为什么做出一个决策的“原因”。 “因果关系”的呈现就此成为数据分析和智能决策的刚需功能,而只提供数据“相关性”的机器学习则无法做到这一点。

 

与“因果学习”(Causal Learning)技术的融合将成为解决这一难题的最优方案,YLearn因果学习开源项目由此诞生。


发布会现场,这款全球首个一站式处理因果学习完整流程的开源算法工具包亮相,由CausalDiscovery、CausalModel、EstimatorModel、Policy、Interpreter等部件组成,各部件支持独立使用,也支持统一封装。通过这些灵活的组件,YLearn实现了用因果图表示数据集中的因果关系、识别因果效应、概率表达式和各类估计模型等功能,并将紧跟前沿研究持续添加和完善性能,具有一站式、新而全、用途广等特点,同时具备九章云极DataCanvas产品“开源、灵活、自动”的基因;并且YLearn立足于开源社区,旨在填补市场上缺少完整、综合性、端到端因果学习工具包的空白,与全球的开源贡献者共同打造一个端到端、最完整、最系统的因果学习算法工具包,从工具端直接降低“决策者”的使用成本。



此外,为了进一步降低使用门槛,除了让使用流程清晰简单、易于上手,YLearn还将融合九章云极DataCanvas的核心技术——AutoML自动机器学习。通过AutoML技术的加持,YLearn将实现自动调参、自动优化、一键自动生成对应结果“Y”的多种决策方案等“自动化”高级功能;此外,YLearn还将实现基于因果关系的可视化决策图谱,例如设定企业运营的运营指标,通过交互式的方式来推演不同决策带来的影响和效益。


提供了自动化因果关系分析的YLearn因果学习开源项目,将为决策者理解AI决策逻辑、增强AI决策可信度提供重要支撑,将成为打开政府和企业“自动化决策”大门的AI钥匙。


03


 中国开源正当时


技术平民化才有更大的市场


事实上,YLearn因果学习开源项目是九章云极DataCanvas继DAT自动机器学习工具包、DingoDB实时交互式分析数据库之后,发布的第三款开源项目。此后,九章云极DataCanvas公司的开源基础软件版图进一步扩大,融合了AutoML和因果学习等前沿AI技术的开源基础工具系列将进一步加速数据智能在政府和全行业的价值释放。


九章云极DataCanvas为什么这么重视开源?


正如CSDN创始人&董事长、极客帮创投创始合伙人蒋涛所言,所有的技术革新背后都是开源生态推动的,中国一直是开源使用的第一大国,随着科技创新和综合国力的提升,现在也成为了开源贡献大国。


可以说,“中国开源正当时”。


事实确实如此,只有技术平民化才能使之走向更大的市场,因此让AI技术更易用是市场趋势,而让开源项目有一个更好的社区生态和用户亦是重中之重。


九章云极DataCanvas一方面将因果推断应用进人工智能,帮助AI走向精细化,势必能引发更广泛的应用,另一方面更是将其产品开源,解决了市场上缺失功能强大且完整的因果学习工具包这一“卡脖子”难题,加速将因果学习技术从“实验室”带入“产业应用”。


看得出,九章云极DataCanvas对这一趋势既有信念又做出了实际行动,其联合创始人暨CTO尚明栋表示,“2022已经进入开源的腾飞之年。我们认为在AI领域,软件是基础设施,相比应用软件,开源是基础软件的‘主战场’。”


据了解,九章云极DataCanvas的AI基础软件产品系列一直在与自主研发的开源重器不断融合应用,这一战略在前几年也得到了市场认可,2021年完成3亿元C轮融资。此次发布的产品也表明他们将围绕“数据智能”技术创新理念和“将AI技术融合应用到实际业务场景”的产品文化,帮助政府和企业在业务场景中进一步提升AI融合技术,释放更大的价值。



预告

开题报告|预计9月发布

朋湖网正在针对隐私计算进行《2022建立统一大市场下,各行业对于隐私计算的应用市场研究》报告的撰写,预计在9月初发布;旨在探讨在全国统一大市场背景下,结合政策、技术、市场三方,研究各行业对隐私计算爆发的市场需求,围绕几个重点的应用落地场景,探讨统一大市场中隐私计算在数据要素市场发挥的作用以及由此带来的联动效果。

报告撰写期间,欢迎更多业内人士与我们联系,经交流分享的信息和资料如经采纳,将在报告中标注来源,并在报告的致谢页中露出。



微信号|Gcx847076575

报告撰写负责人|朋湖网主编龚晨霞



1

END

1

出品 | 朋湖网

往期推荐


Gartner预测,到2022年,全球政府IT支出将增长5%

隐私计算应用产业发展论坛圆桌TAIK:关于隐私计算的未来展望


分享、在看与点赞

关注科技不迷路

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存