后缀自动机
这几天都在听lzh大神讲后缀自动机,感觉太神了,这东东能动态维护后缀数组,也就是说它能知道以某个位置为末尾的所有后缀,现在让我这蒟蒻来总结一下。
首先这是一个有限状态自动机,每个结点都能接收一些状态,注意是一些状态,在这里是后缀自动机,所以每个结点都能接收一些字符串(不一定为后缀),在后缀自动机中,边是代表字母。从源点出发,沿着实边能走到某个结点,这个结点就能接收该路径所代表的字符串。如果当前某个点为接收态,那么它能接收的字符串就是当前后缀。例如:
1接收的是""(空) 2: "a" 3: "ab"、"b" 4: "abc"、"ac"、"bc" 以上只是举例,并不保证能构造这样的字符串。我们规定每个结点都有一个par指针,如果某个节点是接收态,那么它的par也是接收态。这就保证沿着par往上跳就能把所有后缀找出来(接收所有的后缀)
下面讲一下如何建后缀自动机。
对于每一个还要记住到达该点的最长路径长度len,全局变量
指针root(原点,也代表空),last(当前字符串的最长后缀的接收点)。下面举abadd为例子。(实边为点连出去的边,虚边为par)(用u-ch-v表示u连出一条ch边到v)首先,只有root,last=root,root为接收态,\(len(root)=0\)
接着插入a,root-a-1.1为接收态,\(len(1)=1\),last=1(其实last肯定是一个接收态,然后沿par往上跳都是当前的接收态,其他的都不是)。接着插入b,1-b-2,1往上跳到root,root-b-2
2的par为root,因为root是接收态,而1不是接收态,\(len(2)=2\),由图可以看出某个点i能接收的后缀长度为\((len(par), len(i)]\),这个之后会有用。接着插入a,2-a-3,2往上跳到root,发现root-a-1,而且\(len(root)+1=len(1)\),也就是说1只接收一个字符串(a),那么只要把3的par指向1,把1变成接收态即可,(这就相当于在root接收的后缀后面加多了一个a,变成当前后缀),然后就不再往上跳(就算有par也不跳). \(len(3)=3\)
接着插入d,3-d-4, 3往上跳到1,1-d-4,1往上跳到root,root-d-4
4的par为root,\(len(4)=4\)接着插入d, 4-d-5, 4往上跳到root,发现root-d-4,且\(len(root)+1 \neq len(4)\),也就是说4不止接收一个字符串,如果把5的par指向4,则会使4中一些不是当前后缀当成当前后缀(其实在这个例子中,4中除了d为当前后缀,其它都不是当前后缀),于是新建一个节点6,把4拆成4和6,使得6能接收\([len(4->par)+1, len(4->par)+1]\)的后缀,而原来的4只能接收\((len(4->par)+1, len(4)]\),(注意:这里只是刚好这个例子中root=4->par,这是有可能不等的)这里的6有点像上面那种情况(因为6只接收原来4中一个字符d的部分),所以4连出的边6也要连出。
因为root的par有可能连了一条d边到4(肯定会有一条d边,只是不知道是不是4,因为root比他的par能接收的字符串要长,且具有相同后缀,如果root加了d,他的par也有加上d,所以肯定有一条d边)。那么就要root->par-d-6,让6接收原来4中一个字符d的部分。然后一直往上跳,直到不是连向4。而那个点连向的正好就是4的par。下面会详细解释。
上图红色边为删掉的边至于为什么直到不是连向4时,那个点连向的正好是4的par呢?见下图
设上述的那个点为p,向q连出d边,那么\(len(p)+1=len(q)\),因为q是4的par,如果\(len(p)+1 \neq len(q)\),那么添加4时,4的par就不会连向q。如果像这个例子,root已经没有par了,那么就把6的par指向root即可。
因为4失去了原本6那部分,因为要保证从4出发跳par还能找出abad的后缀,所以4的par=6,然后5的par=6(相当于第二种情况,6只接收一个字符串)
经过这样的处理,5和6就是最终的接收态,last=5,这就避免了重复。
代码时间
void insert(int num){ node *endd=mem++; //新加的点 node *cur=last; //之前的最长接收态 endd->len=last->len+1; for (; cur && !cur->son[num]; cur=cur->par) cur->son[num]=endd; //第一种情况 if (!cur) endd->par=root; else if (cur->len+1==cur->son[num]->len) endd->par=cur->son[num]; //第二种情况 else { node *ed=mem++; //拆点 node *tmp=cur->son[num]; *ed=*cur->son[num]; //因为连出边和par都一样,直接复制信息就好了 ed->len=cur->len+1; endd->par=tmp->par=ed; //因为ed本来是tmp的一部分,tmp现已失去了接收ed那部分,所以要把tmp的par=ed。而endd的par=ed是因为这相当于第二种情况。 for (; cur && cur->son[num]==tmp; cur=cur->par) cur->son[num]=ed; //把原本连向tmp的属于ed的那一部分转移到ed } last=endd;//更新最长接收态}
终于,到了时空复杂度的分析
对于空间复杂度,插入一个字母,最多只会新加两个点,所以点的空间复杂度为\(O(2n)\)
至于边的空间复杂度,对于每一个点(p),连向p的点中,只有一个点的\(len\)等于\(len(p)-1\),这里就有\(2n\)条边。对于某一条边\((u, v)\),\(len(u)+1<len(v)\),那么从root沿最长路到\(u\),\(v\)沿最长路到一个接收态,那么这整条路径就是一个后缀,而且这路径上只有一条\(len(u)+1<len(v)\)的边,(就是上述那条)。当然一条这样的边有可能对应多个后缀。后缀最多只有\(n\)个,那么最多只有\(n\)条这样的边。所以边的空间复杂度为\((3n)\)
至于时间复杂度,可以像AC自动机那样分析,时间复杂度为\(O(n)\)