时间不排队？点过程模型：乱序事件，一网打尽

时间:2026-06-17 08:48:25
浏览:111
来源:越西县融媒体中心

机器学习已然惯于处理序列, 诸如一句话当中的词, 视频里的帧, 推荐系统里的点击, 金融市场中的订单等。然而, 在诸多真实场景之中, 数据并非是以固定步长排列好而出现的。

某个瞬间, 神经元放电, 社交平台上, 一条帖子突然被转发, 地震之后, 余震接连发生, 交易系统里, 买卖订单以毫秒级速度涌入。这些事件, 既有发生时间, 也可能带有类型, 有文本, 有空间位置, 有图像, 或其他上下文信息, 它们彼此影响, 但又并不服从传统时间序列的整齐采样假设。

此等数据, 恰恰是时间点过程, 也就是Temporal Point Processes, 简称为TPPs, 着力去建模的目标之物。

现今这段时间, 出身于中国人民大学、还有广东工业大学、以及东南大学等这些机构的那些研究者, 此研究者在TMLR发表了一篇综述性质的论文, 论文题目为《Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches》, 这些研究者凭借这篇论文对相关内容进行了系统的回顾工作哦, 这次回顾所指向的就是处于近年来发展进程中的时间点过程方面的进展情况。

这篇论文, 不同于以前那些侧重于统计模型或者神经TPP的综述, 将Bayesian TPP、Neural TPP、基于大语言模型的TPP、训练方法、应用场景以及开放挑战, 放置在同一个框架之下进行讨论, 所覆盖的文献一直更新到了2025年。

为什么还需要重新梳理 TPP？

TPP并非是个全新概念, Poisson过程等经典模型, 在统计学里有着漫长历史, 被应用于电话呼叫到达任务, 被应用于地震余震任务, 被应用于金融交易任务, 被应用于神经spike train任务, 被应用于社交网络传播任务。

但过去几年，TPP 的研究对象和方法都发生了变化。

首先, 传统参数模型具备可解释性, 不过其表达能力存在局限。Hawkes 过程能够直观地对「过去事件提高未来事件发生可能性」的自激效应予以描述, 然而真实世界里的事件影响通常呈现出非线性、非平稳、多类型且伴随着复杂上下文的特点。

其次, 表示学习通过引入RNN、LSTM、Transformer、ODE/SDE、diffusion等模型至事件序列建模中这一方式, 让TPP因为具备更强的能力去拟合种种更为复杂动态的情况而是显得变得更加具备灵活性, 从而使研究者得以能够这样做。

首先, 大语言模型着手变换TPP的界限。往昔而言, TPP大多仅关注时间以及事件类别, 然而实际的事件常常还涵盖了文本、图像、外部知识以及语义关联。LLM的现身使得「预测下一个事件」延展成「领会一段带有时间戳的多模态事件历程」。

因此，这篇综述把近年来的 TPP 进展概括为三条主线：

Bayesian TPP, 有着如此强调其不确定性量化以及原则化推断的特点；Neural TPP, 包含着这样对于表达能力、可扩展性连同端到端预测的强调；LLM-based TPP, 是那种对语义理解、多模态建模以及更开放的时间推理任务予以强调的啊。

TPP 的核心：用强度函数描述「下一件事何时发生」

那篇论文先是回溯了TPP的两个主要来讲的表述形态, 分别是条件密度函数以及条件强度函数, 而此之中那个条件强度函数乃是关涉TPP的最为关键重要被视为核心关键的概念, 从直观的状况去进行理解来讲, 条件强度函数所给到回应的是这样一个具体涵盖有所指向的问题。

在已经对过去所有事件都观察得到的那样的情形下, 未来的时候于某个很短的时间窗口范围之内, 发生某类事件的瞬间之时的可能性究竟会有多大呢?

关于Poisson过程, 其假设事件之间是彼此独立的, 它用固定或随时间变化的强度来描述, 以Hawkes过程为例进一步介绍, 其引入历史依赖, 这指的是过去的事件借助于触发函数对未来事件发生概率产生影响, 多变量Hawkes过程的描述功能更进一等, 可表征不同事件类型之间相互激发的关系, 像买单对卖单会有怎样的影响, 某个用户的发帖会不会引发其他用户的转发等情况。

也正是鉴于这种“历史对未来产生影响”的机制, TPP 不仅适宜用于进行预测, 而且自然而然适宜用于开展因果发现, 特别是在 Granger causality 意义层面的事件类型依赖关系的识别方面。

第一条路线是, Bayesian TPP, 使得模型清楚自身究竟有多么的不确定。

关于经典参数化 TPP的疑题在于, 开展研究的人员非得事先假定强度函数的样式, 然而实际所得的数据通常特别繁杂, 极为不易凭借固定的函数予以形容, 贝叶斯非参数 TPP 的关键想法是, 并非将强度函数限定于某一具有限定维度的参数样式之中, 而是径直把强度函数自身视作具有无限维度的对象, 并且针对此设置先验。

论文着重探讨了两类, 关于Bayesian nonparametric TPP的内容。

于Poisson场景之内, 惯常采用的方式是藉由Gaussian Process当作函数先验, 接着借助link function确保强度为非负。如此这般之后, 模型不光能够拟合复杂的随时间变化的强度, 而且还能够给出后验不确定性。然而, 代价也是相当显著的: 推断极为困难。

论文表明, 有关后验常常存有“双重难以理解”的状况, 一则似然当中囊括对时间的积分, 二则还得对函数空间进行积分。所以, 研究者拓展了MCMC、Laplace approximation、variational inference、Pólya-Gamma数据增强等办法来近似推断。

在Hawkes过程里, 出现了难点进一步增多的情况, 强度函数一般是由背景强度以及触发函数这两个部分组合而成的, 这二者在似然之中处于耦合状态。其中有一个常见的技巧是引入branching latent variable, 通过隐藏变量来表明某个事件究竟是由背景过程所引发的, 还是源自之前的某些事件触发的。在引入这个变量之后, Hawkes似然能够被拆解为跟背景以及触发函数相关的两个部分, 进而更便于采用非参数Poisson过程中的推断技术。

这条路线具备十分明晰的优点: 有着能够进行解释的特性, 具备可以将不确定性予以量化的能力, 与统计理论之间存在紧密的联系。该路线的缺点也同样是明明白白的: 作出推断的过程甚是复杂, 当拓展至大规模数据范畴的时候所需成本相对较高。

第二条路线：Neural TPP，用深度模型提升表达能力

深度学习给TPP带来的直接变化, 是用神经网络去替代手工设计的那种强度函数或者条件分布, 论文将Neural TPP的主流架构, 分成了几种类别。

第一类是recurrent neural TPP , 早期有着代表性的工作运用RNN 或者LSTM 逐个地去读取事件 , 将历史予以压缩成为 hidden state , 进而用 hidden state 参数化下一个事件的时间以及类型分布。

它具有在线预测效率高这一优势, 在历史状态更新完成后, 预测下一步能够达成常数时间。然而其存在训练难以并行, 长程依赖建模能力受限这样的缺点。论文还特别提及一个新的方向, 即把 RWKV, S4, Mamba 等高效序列模型与 TPP 相结合。这些模型依旧拥有递归式结构的高效性, 与此同时支持并行训练以及长程依赖建模, 有改善传统 RNN - TPP 可扩展性的期望。

有一类是autoregressive neural TPP, 其中典型的代表为Transformer TPP, Transformer能够借由self-attention来捕捉长距离事件依赖, 并且还支持并行训练, 在2020年之后, 大量的工作都是围绕着Transformer TPP去改进时间编码、mark编码、注意力机制以及条件强度函数设计的。

但是, Transformer 的代价也是为人所熟知的, 那就是, 训练复杂度一般会随着序列长度呈现出二次增长的态势, 在长事件流上, 时间成本很高, 显存成本同样很高。对于像高频交易、日志监控这类存在超长序列的场景而言, 怎样去降低复杂度依旧是至关重要的问题了。

第三类是基于微分方程的神经时间点过程, 循环神经网络和变换器通常仅在事件发生之际更新隐藏状态, 对于事件间隔期间的连续时间动态表达欠缺, 基于常微分方程/随机微分方程的时间点过程则使隐藏状态在无事件发生之时连续演化, 于事件发生之时出现跳变, 如此便能更自然地勾勒连续时间里的条件强度变化。存在这样一类方法, 其表达力是较为强的, 然而, 训练会更慢, 采样同样会更慢, 这是由于, 它们常常需要通过数值来求解微分方程, 并且要反复地去计算强度函数积分。

另外, 该论文还对此 diffusion 基础之上的 TPP 展开了探讨。与那一个个预测未来事件的传统自回归模型不一样, 扩散模型试图借助反反复复地去噪来生成一整个段的事件序列。这样做给长时域的预测以及序列模拟提供了另外一种新的视角, 然而也造成了计算方面开销比较 huge、时间的一致性难以去保证、似然评估显得不那么直接等一系列问题。

不只模型结构，参数化方式也很关键

TPP里呈现的其中一个不太容易轻而易举地就引起人们注意力并且容易被漏看忽视过去的问题表明乃是, 神经构造网络确切来说究竟到底应该预测什么呢，最普遍常见的一种采取作为的办法是去预测条件强度函数 , 然而在进行最大似然这种形式的训练时机的情况之下, 强度函数必需得在时间窗口之上进行积分操作, 而这样的积分操作在神经模型中往往一贯并没有闭式方式的解答, 只能够依靠依赖数值积分, 进而影响到关联的效率以及精度。

所以, 近些年来有不少工作朝着「intensity-free」建模转变, 直接对条件密度函数进行参数化, 直接对条件分布函数予以参数化, 直接对累计强度函数实施参数化。

例如, 采用log - normal mixture直接为下一个事件的时间分布开展建模工作, 又或是运用单调神经网络、样条函数对累计强度进行建模。如此一来就能夠规避数值积分, 进而提升训练以及采样效率。论文把这些参数化方式放置在一起加以比较, 以此向读者强调: Neural TPP的进展并非仅仅是更换一个更大型的backbone, 还涵盖了对概率建模目标自身的重新设计。

第三条路线：LLM-based TPP，事件流开始拥有语义

被认为是该篇综述之中最具新意的那一部分内容, 乃是将基于大语言模型的时间点过程纳入到时间点过程研究的版图范围之内。此篇论文持有这样的观点, 即基于大语言模型的时间点过程能够被区分为两个类别。

第一类是受大语言模型启发的时间点过程预测模型, 它们并非直接用大语言模型替换时间点过程预测模型主干, 而是借鉴提示学习、推理等思想, 增强现有的神经时间点过程预测模型, 比如提示时间点过程预测模型使用可学习的时间提示适应持续变化的数据分布, 而溯因推断多模态预测模型则引入大语言模型的溯因推理能力, 以便让模型为候选未来事件生成可能原因, 然后再从历史事件中检索证据。

这类方法具备的优点在于, 它相对高效, 能够增强适应性或者可解释性, 其存在的局限则是, 时间动态本身依旧主要是由传统神经TPP进行建模。

另一类别称作 direct LLM-TPP integration, 也就是将 LLM 直接当作事件序列的核心表示模型。在这种情况下, TPP-LLM 会把事件运用文本描述予以显明, 靠着时间嵌入去注入时间方面的信息, 随后借助 LoRA 等参数高效微调方式以使事件预测任务得以适配。而 Language-TPP 更是在此基础上, 将连续时间间隔编码成 byte-level tokens, 从而使得时间与语言一同进入同一个 token 序列, 并交由 LLM 进行统一建模处理。

在于这种方向的意义是, TPP不再单单处理那种「时间 + 类型」的二维事件了, 而是着手去处理有着自然语言描述的、带有外部知识的、包含多模态上下文情况的复杂事件流。

论文同时作出提醒, LLM式基于这种的事物 TPP 此时此刻正在拓展传统 TPP 的边界范围, 经典的那种 TPP 最为核心处是连续时间的事件发生情况的概率律内容, 相关任务一般涵盖似然建模层面,, 预测方面、模拟范畴以及因果具体结构察觉到发现事项, 于此种 TPP 之中引入 LLM 这一事物过后, 事件序列所进行的检索内容、问答有关方面、多模态推理这些方面的任务一同也被纳入到讨论范围之列, 这些被纳入讨论的任务是极为具有价值意义的, 可是却不一定全部都是严格意义范畴之内的点过程方面出现的相关具体问题。未来社区, 需更为清晰地去区分, 哪些任务, 其本质之上是 TPP, 哪些任务, 仅仅是将 TPP作为更大一时空推理系统之中的一个组件。

数据集和评测：TPP 社区还缺一个真正统一的基准

模型变得越发复杂以后, 评测方面的问题变得更为重要了。论文表明, TPP研究在长时间里面临着诸多问题, 像是数据集呈现碎片化, 预处理不太一致, 训练、验证以及测试的划分存在差异, 用于衡量的指标定义并不统一等情况。这样的状况致使不同论文之间在性能方面的比较并非一直都是可靠的。

近年来, 诸如 EasyTPP 这般的统一 benchmark 工具开始对这一问题起到缓解作用, 它能提供标准化预处理, 能提供模型实现, 能提供训练流程, 还能提供评估脚本。论文持有这样的观点, benchmark 标准化的重要程度并不亚于新模型自身, 原因在于只有具备可比较特性的实验结果, 只有具备可复现特性的实验结果, 才能够切实积累成为社区知识。

TPP 的评测任务也在扩展：

论文归纳出了这样一个经验判断, 它算是相对比较谨慎的哈: 基于Transformer的神经时间点过程TPP, 在应对复杂数据时的下一个事件预测方面, 常常会比经典参数模型表现得更出色；那些直接对条件密度或者累计强度进行建模的模型, 一般情况下训练起来会更高效；长时域的预测直至如今依旧存在困难；基于语言模型LLM的以及多模态的TPP, 于语义理解任务方面具备优势, 然而在纯粹的时间预测基准上所拥有的优势, 还没达到那般清晰明确的程度。

应用：从预测下一次点击，到发现事件之间的因果链

TPP 的应用可以粗略分成两类：事件预测和因果发现。

关注未来将会发生什么样情况, 什么时间发生, 属于哪一种类别进行事件预测。典型场景包含社交网络里的转发预测, 疫情传播预测, 地震后的余震预测, 金融市场的订单预测, 推荐系统中的用户行为预测等等。

关乎事件之间影响结构的是因果发现, 更专注此方面。比如说在神经科学里, 多个神经元的 spike train, 这种情况能够被视作多变量点过程, 在此领域研究者期望去推断, 神经元之间是不是存在功能连接；于高频金融范畴内, 买单与卖单之间所存在的相互影响, 是可以借助 Hawkes 过程来进行刻画的；在 AIOps 当中, 系统故障事件的触发关系, 此关系能够对定位根因起到帮助作用；在医疗以及网络安全这些领域，事件依赖结构一样能够助力去理解复杂系统里的传播机制。

这同样是TPP有别于普通序列预测模型的关键价值所在, 它不但尝试对未来进行预测, 而且还尝试解答, 过去的哪些事件是以怎样的方式对未来产生了影响。

未来挑战：可解释性、可扩展性、采样效率和多模态

论文最后总结了 TPP 领域仍待解决的几个核心挑战。

首要的内容是数据以及模型的标准化, 事件序列一般会呈现出不规则情形下的时间间隔现象, 有着变长这一序列特征, 具备多样的mark空间状态, 伴随着不同的时间粒长度情况, 采用不一样的数据处理手段, 会明显地对模型所展现出的表现造成相应影响, 还会致使论文之间进行比较时变得棘手。

第二, 是模型这方面的可解释性情况。传统的 Hawkes 模型里头, 背景强度以及触发函数是有着明确含义的, 然而神经 TPP 常常是把动态给编码到高维隐状态之中这种情形, 很难去解释过去发生的事件到底是怎样对未来强度产生影响的这般状况。在因果发现、科学建模以及决策支持这些范畴里面, 这样一来这一问题就显得格外关键了。

第三点是可扩展性, 真实发生的事件流, 有可能涵盖数万甚至更多的时间戳, 并且模型还得去处理连续的时间积分, 以及长程依赖, 还有多类型事件交互, 仅仅是简单地将Transformer替换成Mamba或者其他高效的模块, 这是远远不够的, 在未来, 要明白这些架构究竟怎样去表示hazard function, 以及历史依赖, 还有长期时间因果。

第四点是采样效率, 经典的thinning或者inverse transform sampling, 需要反复地去评估强度函数, 然而对于复杂神经模型来讲那就代价非常高昂, 扩散模型、flow-based方法、speculative decoding等方向, 正在尝试并行或者块状生成事件序列, 但是仍旧需要去平衡时间一致性、条件结构与计算成本。

首先是第五个方面, 它涉及多模态建模, 真实发生的事件常常会伴随着像文本、图像、视频帧以及传感器读数等一系列的上下文信息, LLM也就是语言模型和多模态大模型给这类问题提供了全新的工具, 然而还带来了诸如时间对齐、不确定性校准以及可控生成等一系列新的问题。

结语：TPP 正在从「预测事件时间」走向「理解事件世界」

这篇TMLR综述所传达出的一个显得颇为重要的信号是, TPP此刻正处于一个正在重新进入会合状态的阶段, 统计学这种传统给出了诸如强度函数、似然、贝叶斯推断以及因果解释这些内容, 深度学习赋予了强大的表示能力以及端到端预测能力, 而大语言模型又将文本、知识、多模态与推理能力给带进了事件序列建模当中。

未来的TPP, 或许不再单单是个预测「下一个事件何时发生」的模型了, 而是会成为一个通用框架, 这个框架要能够理解连续时间里的复杂事件流。它得既要知晓时间, 又要理解语义；还要既要能够预测, 又要能够解释；并且既要足够灵活, 又要保留统计建模里的可校准性和可靠性。

对于从事机器学习研究的人员而言, 这表明 TPP 并非是个生僻少见的统计工具, 而是在连接连续时间建模、序列学习、因果发觉以及大模型推理方面的关键交叉之处。并且, 这篇综述所具备的价值, 恰恰在于它将那些正处于分散发展状的线索再次放置到了一张图当中。

时间不排队？点过程模型：乱序事件，一网打尽

端午一过，最难熬的日子才刚开张！三伏天还在后头等着蒸你呢

黄磊家三个娃颜值炸裂！9岁儿子帅过爸爸，12岁多妹酷到没朋友

酒香炸裂！贡河酒在百色红色热土上狂飙，这杯酱酒喝的是不屈魂

一人食必备小家电！大宇破壁机，豆浆细腻无渣超好用

一斤肉半碗面，馋哭整条街！孩子抢着吃的零食，你还不快囤？