因为最近的项目需要用到TEDS这个指标,看原始论文没有看明白,整理了一下网上的资料汇总在这里做一个记录,如有侵权请联系我删除

首先是数据类型:表格的树结构图(HTML序列化结构 )

对于树而言 ,同样定义了树编辑距离的增删改操作:

  • 增:添加一个节点在父节点和其子节点之间
  • 删:将树的某个节点删除,同时将其子节点移动到该节点的父节点上。
  • 改:修改节点的label

计算树的编辑距离就是求从一棵树转换为另一棵树所需要树的编辑操作的最少次数。

具体的计算公式如下图所示:

树编辑距离的实现可以直接掉包,但是最重要的是要理解树编辑距离是如何计算的,举个栗子:

该计算矩阵内计算的规则是是:如果两个字符串对应位置的字符相同,则取左上角单元格的值;如果不同,则取该单元格左方、左上方、上方的三个但单元格的值的最小值+1。重复上述操作,直到填满最后一个单元格,其数字就是编辑距离。(应该算是动态规划吧)