本文是前缀入门教程
从二叉树说起
前缀树,也是一种树。为了理解前缀树,我们先从二叉树说起。常见的二叉树结构是下面这样子的:
class TreeNode {
int val;
TreeNode* left;
TreeNode* right;
}
可以看到一个树的节点包含了三个元素:该节点本身的值,左子树的指针,右子树的指针。二叉树可视化是下面这样子的:
二叉树的每个节点只有两个孩子,那如果每个节点可以有多个孩子呢?这就形成了多叉树。多叉树的子节点数目一般不是固定的,所以会用变长数组来保存所有的子节点的指针。多叉树的结构式下面这样:
class TreeNode {
int val;
vector<TreeNode*> children;
}
多叉树可视化是下面这样:
对于普通的多叉树,每个节点的所有子节点可能是没有任何规律的。而本题讨论的[前缀树]就是每个节点的Children有规律的多叉树。
前缀树
(只保存小写字符的)[前缀树]是一种特殊的多叉树,它的TrieNode中Children是一个大小为26的一维数组,分别对应了26个英文字母,也就是说形成了一棵26叉树。
前缀树的结果可以定义为下面这样。
里面存储了两个信息:
class TrieNode {
public:
vector<TrieNode*> children;
bool isWord;
TrieNode() : isWord(false), children(26, nullptr) {
}
~TrieNode() {
for (auto& c : children)
delete c;
}
};
构建
在构建前缀树的时候,按照下面的方法:
'a'~'z'
的序号,放在对应的children里面,下一个字符实在当前字符的子节点。看下面这个图的时候,需要注意:
1.所有以相同字符开头的字符串,会聚合到同一个子树上。比如{'am','an','as'}
2.并不一定是到达叶子节点才形成一个关键词,只要isword为true,那么从根节点到当前节点的路劲就是关键词。比如{'c','cv'}
有些题解把字符画在节点中,这是不准确的。因为前缀树是根据字符在children中的位置确定子树,而不真正在书中存储了'a'~'z'
这些字符。树中每个节点存储的isWord,表示从根节点到当前节点的路径是否构成了一个关键词。
查询
在判断一个关键词是否在[前缀树]中时,需要依次遍历该关键词所有字符,在前缀树中找到这条路径。可能会出现三种情况:
1.在寻找路径的过程中,发现到某个位置路径断了。比如在上面的前缀树图中寻找'd'
或者''ar
或者'any'
,由于树中没有构建对应的节点,那么就查找不到这些关键词;
2.找到了这条路径,但是最后一个节点的isWord为false。这也说明没有改关键词。比如在上面的前缀树图中寻找'a'
;
3.找到了这条路径,并且最后一个节点的isWord为true。这说明前缀树存储了这个关键词,比如上面前缀树图中的'am'
,'cv'
等。
应用
上面说了这么多前缀树,那前缀树有什么用那?
其实我们生活中就有应用。比如我们常见的电话拨号键盘,当我们输入一些数字的时候,后面会自动提示以我们的输入数字为开头的所有号码。
下面的Python解法中,保存children是使用的字典,它保存的结构式{字符:Node}
,所以可以直接通过children[“a”]来获取当前节点的’a’子树。
class Node(object):
def __init__(self):
self.children = collections.defaultdict(Node)
self.isword = False
class Trie:
def __init__(self):
"""
Initialize your data structure here.
"""
self.root = Node()
def insert(self, word: str) -> None:
"""
Inserts a word into the trie.
"""
current = self.root
for w in word:
current = current.children[w]
current.isword = True
def search(self, word: str) -> bool:
"""
Returns if the word is in the trie.
"""
current = self.root
for w in word:
current = current.children.get(w)
if current == None:
return False
return current.isword
def startsWith(self, prefix: str) -> bool:
"""
Returns if there is any word in the trie that starts with the given prefix.
"""
current = self.root
for w in prefix:
current = current.children.get(w)
if current == None:
return False
return True
# Your Trie object will be instantiated and called as such:
# obj = Trie()
# obj.insert(word)
# param_2 = obj.search(word)
# param_3 = obj.startsWith(prefix)
时间复杂度:初始化为
O
(
1
)
O(1)
O(1),其余操作为
O
(
∣
S
∣
)
O(|S|)
O(∣S∣),其中|S|是每次插入或咨询的字符串长度。
空间复杂度:
O
(
∣
T
∣
?
∑
)
O(|T|·∑)
O(∣T∣?∑),其中|T|为所有插入字符串的长度之和,∑为字符集的大小,本题∑=26