发布时间:2025-05-02 14:04:52 点击量:
HASH GAME - Online Skill Game GET 300
由于我们对(ϵ, δ)-近似的定义涉及到单一的偏导数,梯度中的一些偏导数可能是可处理的,而其他的则不是。为了使定理4.1适用,我们需要WMC(ϕ ¬x)随着WMC(π)收敛到一而收敛到零。这通常情况会是这样,除非一个不同的蕴含项π′部分覆盖了π和(π x) ∧ ¬x。或者更非正式地说,当在收敛时没有达到可处理性,正是因为这个文字的值对于WMC来说并不重要。例如,这种情况可能发生是因为π不是素蕴含项,这意味着π x仍然是一个蕴含项。
定理4.3表明,在最坏的情况下,应该受到τ-监督的变量数量接近总变量数。更准确地说,神经网络允许误分类的变量百分比随着1/var(ϕ)的增加而减少。首先,这意味着定理4.1中的可处理性在实践中可能并不总是能够达到。其次,定理4.3表明,概念监督不能完全消除对近似推理的需求。概念监督是对逻辑变量权重的一些直接监督,而不是从头开始训练。例如,在MNIST加法示例中,一些图像会得到个别的标签(例如= 9)。
WMS(加权模型采样)和WMC(加权模型计数)是多项式时间可相互规约的,因此精确的WMS也是#P-hard(Jerrum等人,1986)。因此,可扩展的WMS方法求助于近似,并不完全根据加权模型分布P(M)/WMC(ϕ)进行采样。至关重要的是,当WMS样本是(ϵ, δ)-近似时,定理5.3仍然适用(见附录C)。因此,只需对SAT预言机进行对数数量级的调用,就可以实现单个WeightME梯度(Chakraborty等人,2016)。
有偏的WMS近似有望进一步扩展,但缺乏保证。Golia等人(2021)通过在有偏近似上使用采样测试器来研究这种权衡。这导致他们提出了一个高性能的求解器,它从一个在统计测试上与真实分布没有差异的分布中进行采样。Markov-Chain Monte Carlo(MCMC)技术也被提出用于模型采样(Ermon等人,2012)。不幸的是,组合问题面临着马尔可夫链的指数混合时间。Li等人(2022)通过使用SMT求解器中的投影技术来解决这个问题。
模糊t-范数可以说是最常见的神经符号语义。它们用连续的泛化替换逻辑(布尔)操作(Badreddine等人,2022;van Krieken等人,2022)。例如,乘积t-范数计算合取为w(x ∧ y) = w(x) · w(y),计算析取为w(x ∨ y) = 1 − w(¬x) · w(¬y)。至关重要的是,模糊语义在命题公式的大小上具有线性复杂性。t-范数也可以用作概率语义的近似。例如,乘积t-范数在假设所有子句都独立的情况下计算CNF的WMC。
基准测试模型计数竞赛(MCC)是关于(加权)模型计数的年度竞赛(Fichte等人,2021)。我们采用了过去三届竞赛(2021、2023和2023)的基准测试,并选择了那些具有概率性且可以被最新求解器精确求解的实例(Lagniez & Marquis,2017;Golia等人,2021)。作为一个更简单的基准测试,我们还包括了ROAD-R数据集中的逻辑公式(Giunchiglia等人,2023),该数据集对自动驾驶汽车的目标检测施加了约束。所有基准测试都是CNF公式。权重用均值为1/2的高斯分布初始化。
质量 为了评估梯度的质量,我们计算了我们基准测试集中精确梯度和近似梯度之间的余弦相似度。表2总结了结果。WeightME取得了最好的结果,无论是与多项式方法还是NP-hard方法相比。对于多项式方法,乘积t-范数和Gumbel-Softmax表现最佳。哥德尔t-范数表现不佳,因为它按设计只为一个变量提供非零梯度。SFE通常无法采样到模型,这就是为什么它在这些基准测试上表现非常差。IndeCateR没有包含在结果中,因为它受到这个问题的影响更大。非加权模型采样在较小的ROAD-R基准测试上表现与WeightME相似,但在更具挑战性的问题上落后。
与任何实证研究一样,第7节的结果受到所选择基准测试的影响,可能无法推广到所有神经符号任务。我们的工作仅考虑了命题逻辑,而一些神经符号系统针对的是更具表现力的一阶逻辑。一阶神经符号系统通常会将其理论具体化,因此这里研究的命题情况仍然相关。加权一阶模型计数的推理要困难得多(Gribkoff等人,2014),因此更需要进行近似。我们也没有考虑DNF,与CNF相反,DNF允许一种可处理的(ϵ, δ)-近似(Karp等人,1989)。