Leveraging constraints for deduplication

作者： Anish Das Sarma , Surajit Chaudhuri , Shriraghav Kaushik , Venkatesh Ganti

DOI:

关键词: SQL 、 Data deduplication 、 Data records 、 Theoretical computer science 、 Partition (database) 、 restrict 、 Constraint satisfaction 、 Tuple 、 Data mining 、 Mathematics

摘要: A deduplication algorithm that provides improved accuracy in data by using aggregate and/or groupwise constraints. Deduplication is accomplished only as many of these constraints are satisfied rather than be imposed inflexibly hard Additionally, textual similarity between tuples leveraged to restrict the search space. The begins with a coarse initial partition records and continues raising threshold until splits given partition. This sequence defines rich space alternatives. Over this space, an finds input maximizes constraint satisfaction. In context aggregation for all SQL (structured query language) aggregates allowed, including summation.

freepatentsonline.com 本地加速

google.com 本地加速

google.com LINK 下载加速

freepatentsonline.com LINK 下载加速

freepatentsonline.com UNKNOWN 下载加速

lens.org UNKNOWN 下载加速

参考文章(40)

Ying Xu, Venkatesh Ganti, Probabilistic techniques for detecting duplicate tuples ,(2005)

Mark S. Manasse, Method for duplicate detection and suppression ,(2004)

Anthony K. H. Tung, Jiawei Han, Laks V.S. Lakshmanan, Raymond T. Ng, Constraint-based clustering in large databases international conference on database theory. pp. 405- 419 ,(2001) , 10.1007/3-540-44503-X_26

Rohit Ananthakrishna, Surajit Chaudhuri, Venkatesh Ganti, Eliminating fuzzy duplicates in data warehouses very large data bases. pp. 586- 597 ,(2002) , 10.1016/B978-155860869-6/50058-5

Charles Elkan, Alvaro E. Monge, An Efficient Domain-Independent Algorithm for Detecting Approximately Duplicate Database Records. DMKD. pp. 0- ,(1997)

Peter D. Rail, Rene L. Alejandro, Duplicate record detection ,(1995)

Troy A. Hartenstine, Collecting and valuating used items for sale ,(2004)

William K. Perrizo, System and method for organizing, compressing and structuring data for data mining readiness ,(2001)

AnHai Doan, Warren Shen, Xin Li, Constraint-based entity matching national conference on artificial intelligence. pp. 862- 867 ,(2005)

10.

Panagiotis Ipeirotis, Nikolaos Koudas, Luis Gravano, Divesh Srivastava, Text joins for data cleansing and integration in a relational database management system ,(2004)

Leveraging constraints for deduplication

来源期刊

我的账户

Leveraging constraints for deduplication

来源期刊

相似文章 10

我的账户