流数据挖掘与DSMS
2010-06-12 12:46:33| 分类:
dbms
| 标签:
|举报
|字号大中小 订阅
特点
大数据量,甚至无限
频繁的变化和快速的响应
线性扫描算法,查询次数有限
random access is expensive
DBMS
持久的关系
One-time queries
随机的访问
“无限”的磁盘空间
当前状态有效
相对较低的更新率
很少“实时服务”
假定数据精确无误
访问策略由查询处理器在数据库设计时确定
DSMS(Data Stream Management System)
瞬间的流
连续的查询
序列化的访问
有限的主存
数据的到达顺序是关键
数据传输率未知
实时响应
过时/模糊的数据
变化的数据及数据量
目前的DSMS项目
STREAM (Stanford): A general-purpose DSMS
Cougar (Cornell): sensors
Aurora (Brown/MIT): sensor monitoring, dataflow
Hancock (AT&T): telecom streams
Niagara (OGI/Wisconsin): Internet XML databases
OpenCQ (Georgia Tech): triggers, incr. view maintenance
Tapestry (Xerox): pub/sub content-based filtering
Telegraph (Berkeley): adaptive engine for sensors
Tradebot (www.tradebot.com): stock tickers & streams
Tribeca (Bellcore): network monitoring
Streaminer (UIUC): new project for stream data mining
应用实例
网络安全
数据包流,用户的会话信息
查询: URL 过滤,异常监测,网络攻击和病毒来源
金融领域
交易数据流, 股票行情, 消息反馈
查询: 套汇可能性分析,模式
研究方向
流数据建模(Stream data model)
STanford stREam datA Manager (STREAM)
Data Stream Management System (DSMS)
流检索/查询建模(Stream query model)
Continuous Queries
Sliding windows
流数据挖掘(Stream data mining)
Clustering & summarization (Guha, Motwani et al.)
Correlation of data streams (Gehrke et al.)
Classification of stream data (Domingos et al.)
评论这张
转发至微博
转发至微博
评论