数据结构时间IOs熵焦耳Paolo Ferragina

  • 幻灯片:43
下载演示文稿
数据结构:时间,I/ o,熵,焦耳Paolo Ferragina Dipartimento di Informatica Università di Pisa

数据结构:时间,I/ o,熵,焦耳Paolo Ferragina Dipartimento di Informatica Università di Pisa

我们的驾驶道德……大的进步来自于理论……但是

我们的驾驶道德……大的进步来自于理论……但不要忘记练习;-)

字符串。为什么?v无所不在:因此,任何数据都是位的序列

字符串。为什么?v:任何数据都是一个位序列,因此,字符串v在许多领域引发了新的问题:几何图形、高维空间中的字符串相似性搜索点和NN搜索、通过对地理问题图的简化来索引的上下限、文档相似性图、查询日志图、文本/Web挖掘中无处不在的数据压缩边缘iff 2查询点击同一个res页面基于字符的加权图上的最短路径[Ferragina等人,SODA 09,ESA 09]

给定一个字典D,包含K个字符串,总长度为N,存储

(字符串-)字典问题给定一个字典D,包含K个字符串,总长度为N,存储它们的方式,我们可以有效地支持前缀搜索模式p。精确搜索哈希Mitzenmacher, ESA邀请' 09

(紧凑的)主导了80 -90年代的弦匹配场景[Fredkin, ccm 1960]

(压缩)在80年代到90年代的字符串匹配场景中占主导地位[Fredkin,CACM 1960],其后缀版本:后缀树Trie性能:0•搜索≈ O(| P |)时间•空间≈ O(K+N)1 y 2 stile zyg(2;3,5)5 1 Eticial 2 3 s z aibelyite 2 omo 7 5 czecin ygy 4系统同步同步同步6 Szailyite Szzecin szomo

时间表:理论与实践…软件工程师呢??再保险T

时间表:理论与实践…软件工程师呢??8 0 ' 7 0 S 0 0 T ' 6 e

(紧凑的)主导了80 -90年代的弦匹配场景[Fredkin, ccm 1960]

(紧凑)以其后缀版本主导了80 -90年代的字符串匹配场景[Fredkin, cacm1960]:后缀树尝试性能:0•搜索≈O(|P|)时间•空间≈O(K + N) 1 y…2 .搜索:随机内存访问stile空间:len + pointer + string (2;3, 5) 5 1位2 3 s zaibelite 2 omo 7 5 czecin ygy 4 sysys syzygsyzyg6 szaibelite szczecin szomo

系统实现了什么?使用了压缩的尝试,当然,但与2

I系统实现了什么?当然,使用了压缩的trie,但由于数据量大,还存在另外两个问题

1°问题:空间问题…。收缩性syzygetic Syzygia syzygy…。2 http://checkmate。com/全天然/应用。html

1°问题:空间问题…。收缩性syzygetic Syzygia syzygy…。2 http://checkmate。com/全天然/应用。htmlhttp: / /将军。com/All_Natural/Aroma 1。html http: / /将军。com/All_Natural/Aromatic_Art。html http: / /将军。com/All_Natural/Ayate。html http: / /将军。com/All_Natural/Ayer_Soap。html http: / /将军。 com/All_Natural/Ayurvedic_Soap. html http: //checkmate. com/All_Natural/Bath_Salt_Bulk. html http: //checkmate. com/All_Natural/Bath_Salts. html http: //checkmate. com/All/Essence_Oils. html http: //checkmate. com/All/Mineral_Bath_Crystals. html http: //checkmate. com/All/Mineral_Bath_Salt. html http: //checkmate. com/All/Mineral_Cream. html 5 33 45% Front Coding 5 0 33 34 38 38 34 35 35 33 42 25 25 38 33 http: //checkmate. com/All_Natural/ Applied. html roma. html 1. html tic_Art. html yate. html er_Soap. html urvedic_Soap. html Bath_Salt_Bulk. html s. html Essence_Oils. html Mineral_Bath_Crystals. html Salt. html Cream. html 0 http: //checkmate. com/All/Natural/Washcloth. html. . . http: //checkmate. com/All/Natural/Washcloth. html . . . Bender et al. , PODS 2006 Ferragina et al. , PODS 2008

空间局部性或时态局部性缓存:更少的I/ o

空间局部性或时态局部性缓存:less I/ o less and Faster I/ o CPU 1 Internal memory Count I/ o B HD

2级索引2个优点:•搜索≈ 通常为1个I/O•空间≈

2级索引2优势:•搜索≈典型的1 I/O•空间≈桶上的前端编码在一个样本系统上的内部内存CT0 systile 2 zyzy5 ial 5 y 0 szaibelyite 2 czecin 2 omo....

时间表:理论与实践…我们需要通过I/ o交换空间吗

时间表:理论与实践…我们需要通过I/ o交换空间吗?S 95 19 0 e e e -tr 2 ' 9 ' 8 0 Su 0 ' 7 ' 6 0 ier t re t x g in x e d n i

[Morrison,J.ACM 1968]一个古老的想法:Patricia Trie 0 1 y 2 stile

[Morrison,J.ACM 1968]一个古老的想法:Patricia Trie 0 1 y 2 stile zyg 2 2 omo 7 5 ygy al z aibelyite 5 1 s 4 czecin 6

[Ferragina-Grossi, J. ACM 1999

[Ferragina Grossi,J.ACM 1999]一种新的搜索0搜索(P):•第一阶段:树导航•第二阶段:计算LCP•第三阶段:树导航y 1 2 s 5 z g

[Ferragina-Grossi, J. ACM 1999] > 15项美国专利引用它!字符串b -树[手册

[Ferragina-Grossi, J. ACM 1999] > 15项美国专利引用它!String B-tree [Handbook of Comp. Biology, 2009] + Search(P)•O((P /B) log。B K) I/O•O(occ/B) I/O 1 string checked: O(p/B) PT 29 13 20 18 3 O(log. log)它是动态的…PT 29 2 PT 26日13 PT 29 1 9 20 25 PT 5 2 26 10 4 PT 6 PT 7 13词典P的位置20 16 28日18 3 14 PT 8 25 6 12 15 22 18 21 23 PT 3 27日24日11 PT 14 21 17 23 Knuth卷3°,pag。489:“优雅”

I/O感知算法和数据结构I/O是主要关注点[CACM 1988][2006]

I/O感知算法和数据结构I/O是主要关注点[CACM 1988][2006]大量文献!!

时间表:理论与实践…不仅仅是2级内存95 19 0

时间线:理论与实践。不只是两个内存级别95 19 0 S'7'9 0'8 B g trin 2-S 0-6 0 ie r T in 99 i f f f u el v le e-tr 19 ee r x。T g n i x de Space CPU注册v无参数解决方案üL 1 L 2缓存随时随地。I/O-最佳!!RAM HD网络缓存不经意算法。和数据Str.见Arge、Brodal和Fagerberg的第二章

一些宝贵的成就…v缓参无关的尝试ü静态字符串字典[Brodal

一些宝贵的成就…u v缓存无关单词查找树静态字符串的字典(Brodal et al,苏打水2006)v b - tree u动态字典缓存无关字符串的字符串(Bender et al,豆荚2006)v缓存无关树映射Patricia trie u Split-and-Refine,适用于任何B-fixed树分区(Alstrup et al,最坏情况解决方案[Demaine et al, manuscript 2004]

时间表:理论与实践…不只是2个记忆级别19 0 '

时间表:理论与实践…不仅2记忆水平19 0 8 0 - 95 2年代压缩数据结构B g rt S ' 7 ' 6 0 T e v e - l tr 99 f f u rie e d n ee李缓存无关数据结构19 r T ee g n x空间

一个具有挑战性的问题[肯·丘奇,AT&T 1995]软。Eng。使用许多“挤压启发式”

一个具有挑战性的问题[肯·丘奇,AT&T 1995]软。Eng。我们能“自动化”和“保证”这个过程吗?

Aka:压缩自索引机会主义数据结构及其应用P.Ferragina,G.Manzini。

Aka:压缩自索引机会主义数据结构及其应用P.Ferragina,G.Manzini。现在,J.ACM 2005 n空间用于文本+(全文)索引压缩文本(Hk)查询/解压缩时间理论上(准)最优

[Burrows Wheeler,1994]大的(无意识的)步骤。让我们给出一个文本T

[Burrows Wheeler,1994]大的(无意识的)步骤。让我们给出一个文本T= mississippi#m ssissippi#mis issippi#missi sippi#mississ ppi#mississip i#mississippi Sort the rows # i i m p p s s mississipp #mississip ppi#missis ssippi#mis ssissippi# ississippi i#mississi pi#mississ ippi#missippi#mi sippi#miss sissippi#m i p s s m # p i s s i i Can we compress it ?

[Burrows Wheeler,1994]大的(无意识的)步骤。让我们给出一个文本T

[Burrows Wheeler,1994]大的(无意识的)步骤。让我们给出一个文本T= mississippi#m ssissippi#mis issippi#missi sippi#mississ ppi#mississip i#mississippi Sort the rows bwt(T) # i i m p p s s mississipp #mississip ppi#missis ssippi#mis ssissippi# ississippi i#mississi pi#mississ ippi#missippi#mi sippi#miss sissippi#m i p s s m # p i s s i i T bzip 2 = BWT + other simple compressors

[Burrows Wheeler,1994]大的(无意识的)步骤。让我们给出一个文本T

[Burrows Wheeler,1994]大的(无意识的)步骤。让我们给出一个文本T= mississippi#m ssissippi#mis issippi#missi sippi#mississ ppi#mississip i#mississippi Sort the rows Suffix Array bwt(T) # i i m p p s s mississipp #mississip ppi#missis ssippi#mis ssissippi# ississippi i#mississi pi#mississ ippi#missippi#mi sippi#miss sissippi#m i p s s m # p i s s i i T bzip 2 = BWT + other simple compressors

从实践到理论…# i i m p . p . n .

从实践到理论。[Ferrag bwt(T)#我是p s mississipp#Missississipi#Mississippi#Missississippi#Missississippi#Mississippi#missippi#missippi#Mississippi#Mississippi#Mississippi#missippi#missippi#missippi#missippi#missippi#missippi#missippi#missippi#missippi#。或后缀数组是可压缩的•Space=l | T | Hk+o(| T |)位•Search(P)=o(P+occ*polylog(| T |))当今大量论文:理论与实验[Navarro Makinen,ACM Comp.Surveys 2007]

压缩和可搜索的数据格式文本树FOCS 2000 SODA 2003, 04 SODA 2007

压缩和检索的数据格式文本树木foc 2000苏打2003 04苏打2007尖塔2007 CPM 2008 CPM 2010 ICALP 2010整数集苏打2002……foc 2008 STACS 2009苏打2002苏打2007 ICALP 2007瓦特2008 ICALP 2009苏打2010标签树功能点集苏打2002 foc 2005 WWW 2006苏打2007 ICDE 2010 ICALP 2003,04 SODA 2004 ICALP 2008 ESA 2009 LATIN 2010 SODA 2003 TALG 2007 WADS 2009 SODA 2009 Graphs DCC 2001 WWW 2004 ISAAC 2007 ESA 2008 FOCS 2009 Images DCC 2008

[二零零三年十二月][二零零五年一月]

[二零零三年十二月][二零零五年一月]

ACM J.实验算法学,2009

ACM J.实验算法学,2009

> 103比Smith-W快。>102比SOAP & Maq快

> 103比Smith-W快。>102比SOAP和Maq更快。Ferragina-Manzini, ACM WSDM 2010

我们现在的位置是19 0'8压缩数据结构B g rt

我们现在19 0 8压缩数据结构B g rt年代95年2 S 0 ' 7 ' 6 0 T e v e - l tr 99 f f u rie e d n李缓存无关数据结构19 r T ee g n x ee。。。然而非常初步[PODS ' 08,纳瓦罗,维特,…Bellazougui等人,这是ESA

还有什么?(E。加,美国托莱多。ACM Comp。测量员, 2005] [Ajwani

还有什么?(E。加,美国托莱多。ACM Comp。测量员[Ajwani et al, WEA 2009] v Solid-state disks: no mechanical parts ü…非常快的读,但是慢的写和磨损水平v自我调节或加权设计ü时间操作依赖于一些(un/已知)分布ü挑战:没有指针,自我调节(性能)vs压缩(空间)

更大的挑战:从微观到宏观!IEEE计算机,2007

更大的挑战:从微观到宏观!IEEE计算机,2007

方法1(面向工程)新闻:正确的系统组件+特定算法v Sanders&

新闻:适当的系统组件+特定算法vs Sanders & Meyer 's groups, IEEE Conf. on Green Comp. 2010 [SSDisks + Atom + Sort]

方法2(管理资源)目标:开发在线算法,通过交易动态管理电力

方法#2(管理资源)目标:开发在线算法,通过权衡性能、能源和可靠性来动态管理电力v Susanne Albers,Comm.ACM 2010

方法#3(模型和算法)IEEE计算机,2009“算法提供了Wo IEEE的好处

方法#3(模型和算法)IEEE Computer,2009“算法提供了f.o en C om n中的Wo IEE rksho Gre Con p远远超出p.20 1 TCS进入系统设计的优势。”0

有时候能量是主要的资源!

有时候能量是主要的资源!

节能意识算法+ Ds ?内存级别影响I/ o和压缩

能量感知算法+Ds?内存级别对I/O和压缩的影响显然很重要,但这里有一个新的转折点

每瓦MIPS ?电池寿命! !谁在乎你的申请:pri

每瓦MIPS ?电池寿命! !谁在乎你的应用程序:pri 1。y比最佳速度慢,但它更节能吗?在一个2。比优化多占用x%的空间,但解压速度更快?唉

每瓦MIPS ?理念:数据结构多目标优化设计保持

每瓦MIPS ?理念:数据结构多目标优化设计敬请关注:手机算法库

v Hbase - Hadoop大。表格,2006年宇宙Hyper。表Cassandra实时搜索问答

v Hbase - Hadoop大。表格,2006年宇宙Hyper。表卡桑德拉实时搜索问答社会搜索知识搜索

许多成分项目是图,向量,字符串,

需要优化的资源有:ü时间(速度/耐心)ü空间(#磁盘/管理成本)ü带宽(速度/€)ü能源(€)数据结构设计中的多目标优化!

就这些!我在会议记录中看我的论文

就这些!我在会议记录中看我的论文

Baidu