Accepted Research Papers

12 Leveraging Spatio-Temporal Redundancy for RFID Data Cleansing
Haiquan Chen, Auburn University; Wei-shinn Ku*, Auburn University; Haixun Wang, Microsoft Research, Asia; Min-Te Sun, National Central University, Taiwan

18 Efficient Querying and Maintenance of Network Provenance at Internet-Scale
Wenchao Zhou, University of Pennsylvania; Micah Sherr, University of Pennsylvania; Tao Tao, University of Pennsylvania; Xiaozhou Li, University of Pennsylvania; Boon Thau Loo*, University of Pennsylvania; Yun Mao, University of Pennsylvania

24 SecureBlox: Customizable Secure Distributed Data Processing
William Marczak*, UC Berkeley; Shan Shan Huang, LogicBlox, Inc.; Martin Bravenboer, LogicBlox, Inc.; Micah Sherr, University of Pennsylvania; Boon Thau Loo, University of Pennsylvania; Molham Aref, LogicBlox

29 Spreadsheet As a Relational Database Engine
Jerzy Tyszkiewicz*, University of Warsaw

43 Hierarchically Organized Skew-Tolerant Histograms for Geographic Data Objects
Yohan Roh, KAIST; Yon Dohn Chung, Korea University; Jin Hyun Son, Hanyang University; Jae Ho Kim, KAIST; Myoung Ho Kim*, KAIST

53 Automatic Contention Detection and Amelioration for Data-Intensive Operations
John Cieslewicz, Columbia University; Kenneth Ross*, Columbia University; Kyoho Satsumi, Columbia University; Yang Ye, Columbia University

66 Scalable Architecture and Query Optimization for Transaction-time DBs with Evolving Schemas
Hyun Moon*, NEC Labs; Carlo Curino, MIT; Carlo Zaniolo, UCLA

67 FAST: Fast Architecture Sensitive Tree Search on Modern CPUs and GPUs
Changkyu Kim*, Intel; Jatin Chhugani, Intel; Nadathur Satish, Intel Corporation; Eric Sedlar, Oracle; Anthony Nguyen, Intel; Tim Kaldewey, Oracle; Victor Lee, Intel Corporation; Scott Brandt, University of California, Santa Cruz; Pradeep Dubey, Intel

69 Optimizing Content Freshness of Relations Extracted From the Web Using Keyword Search
Mohan Yang*, Shanghai Jiao Tong University; Haixun Wang, Microsoft Research, Asia; Lipyeow Lim, ; Min Wang, HP Labs

81 B^ed-Tree: An All-Purpose Tree Index for String Similarity Search on Edit Distance
Zhenjie Zhang*, National University of Singapo; Beng chin Ooi, National University of Singapore; Marios Hadjieleftheriou, AT&T Labs - Research; Divesh Srivastava, AT&T Labs - Research

83 Processing Proximity Relations in Road Networks
Zhengdao Xu*, University of Toronto; Arno Jacobsen, University of Toronto

85 An Algorithmic Approach to Event Summarization
Peng Wang*, Fudan University; Haixun Wang, Microsoft; Majin Liu, Fudan University; Wei Wang, Fudan University

101 Querying Data Provenance
Grigoris Karvounarakis*, University of Pennsylvania; Zachary Ives, University of Pennsylvania

106 Fast In-Memory Sort on Modern CPUs and GPUs: A Case for Bandwidth-Oblivious SIMD Sort
Nadathur Satish*, Intel Corporation; Changkyu Kim, Intel; Jatin Chhugani, Intel; Anthony Nguyen, Intel; Victor Lee, Intel Corporation; Daehyun Kim, Intel; Pradeep Dubey, Intel

108 Sampling Dirty Data for Matching Attributes
Henning Koehler*, The University of Queensland; Shazia Sadiq, The University of Queensland; Yanfeng Shu, CSIRO, Tasmanian ICT Centre; Kerry Taylor, CSIRO, ICT Centre; Xiaofang Zhou, The University of Queensland

113 Workload-Aware Storage Layout for Database Systems
Oguzhan Ozmen, University of Waterloo; Kenneth Salem*, University of Waterloo; Jiri Schindler, NetApp, Inc.; Steve Daniel, NetApp, Inc.

140 GRN Model of Probabilistic Databases: Construction, Transition and Querying
Ruiwen Chen*, University of Ottawa; Yongyi Mao, University of Ottawa; Iluju Kiringa, University of Ottawa

146 Efficient Parallel Set-Similarity Joins Using MapReduce
Rares Vernica*, University of California, Irvine; Michael Carey, UC Irvine; Chen Li, Univ of California, Irvine and BiMaple

147 Towards Proximity Pattern Mining in Large Graphs
Arijit Khan*, ; Xifeng Yan, ; Kun-Lung Wu, IBM Watson Research Center

152 ParaTimer: A Progress Indicator for MapReduce DAGs
Kristi Morton, University of Washington; Magdalena Balazinska*, University of Washington; Dan Grossman, University of Washington

163 Page-Differential Logging: An Efficient and DBMS-independent Approach for Storing Data into Flash Memory
Yi-Reun Kim, KAIST; Kyu-Young Whang*, KAIST; Il-Yeol Song, Drexel University

168 Multiple Features Fusion for Social Media Applications
Bin Cui*, Peking University; Anthony Tung, National University of Singapore; Ce Zhang, PKU; Zhe Zhao, PKU

176 GAIA: Graph Classification Using Evolutionary Computation
Ning Jin*, UNC at Chapel Hill; Calvin Young, UNC at Chapel Hill; Wei Wang, University of North Carolina at Chapel Hill

193 Consistent Query Answers in Inconsistent Probabilistic Databases
Xiang Lian*, HKUST; Lei Chen, Hong Kong University of Science and Technology; Shaoxu Song, HKUST

213 TEDI: Efficient Shortest Path Query Answering on Graphs
Fang Wei*, University of Freiburg

217 Processing Continuous Join Queries in Sensor Networks: a Filtering Approach
Mirco Stern*, Universitaet Karlsruhe (TH); Erik Buchmann, Universitaet Karlsruhe (TH); Klemens Boehm, Universitaet Karlsruhe (TH)

242 An Optimal Labeling Scheme for Workflow Provenance Using Skeleton Labels
Zhuowei Bao*, University of Pennsylvania; Susan Davidson, University of Pennsylvania; Sanjeev Khanna, University of Pennsylvania; Sudeepa Roy, University of Pennsylvania

252 GBLENDER: Towards Blending Visual Query Formulation and Query Processing in Graph Databases
Changjiu Jin, Nanyang Technological Univ; Sourav S Bhowmick*, Nanyang Technological Univ; Xiaokui Xiao, NTU, Singapore; James Cheng, Nanyang Technological Univ; Byron Choi, Hong Kong Baptist University

267 An Evaluation of Alternative Architectures for Transaction Processing in the Cloud
Simon Loesing, ETH Zurich; Tim Kraska*, ETH Zurich; Donald Kossmann, ETH Zurich

269 On Indexing Error-Tolerant Set Containment
Raghav Kaushik*, Microsoft Research; Parag Agrawal, Stanford University; Arvind Arasu, Microsoft Research

271 Recsplorer: Recommendation Algorithms based on Precedence Mining
Aditya Parameswaran, Stanford University; Georgia Koutrika*, Stanford University; Benjamin Bercovitz, ; Hector Garcia-Molina, Stanford

274 Load-Balanced Query Dissemination in Democratic Communities
Emiran Curtmola*, UCSD; Alin Deutsch, UCSD; K.K. Ramakrishnan, AT&T Research Labs; Divesh Srivastava, AT&T Labs - Research

276 Differentially Private Aggregation of Distributed Time-Series with Transformation and Encryption
Vibhor Rastogi*, University of Washington; Suman Nath, Microsoft

278 Feeding Frenzy: Selectively Materializing Users' Event Feeds
Adam Silberstein, Yahoo! Research; Jeffrey Terrace, Princeton University; Brian Cooper*, Yahoo! Research; Raghu Ramakrishnan, Yahoo! Research

280 Finding Maximum Degrees in Hidden Bipartite Graphs
Yufei Tao*, Chinese University of Hong Kong; Sheng Cheng, CUHK; Jianzhong Li, Harbin Institute of Technology

289 Constructing and Exploring Composite Items
Senjuti Basu Roy*, UTA; Sihem Amer-Yahia, Yahoo! Research; Ashish Chawla, Yahoo! Inc; Gautam Das, University of Texas at Arlington; Cong Yu,

299 Searching Trajectories by Locations - An Efficiency Study
Zaiben Chen, The University of Queensland; Yu Zheng, Microsoft Research Asia; Heng Tao Shen*, University of Queensland, Australia; Xiaofang Zhou, The University of Queensland; Xing Xie, Microsoft Research Asia

302 K-Isomorphism: Privacy Preservation in Network Publication against structural attack
James Cheng, ; Ada Fu*, CUHK; Jia Liu, Chinese University of Hong Kong

307 Computing Label Constraint Reachability in Graph Databases
Ruoming Jin*, Kent State University; Hui Hong, Kent State University; Haixun Wang, Microsoft Research, Asia; Yang Xiang, Kent State University; Ning Ruan, Kent State University

317 Logging Every Footstep: Quantile Summaries for the Entire History
Yufei Tao*, Chinese University of Hong Kong; Ke Yi, HKUST; Sheng Cheng, CUHK; Jian Pei, Simon Fraser University; Feifei Li, Florida State University

320 Data Conflict Resolution Using Trust Relationships
Wolfgang Gatterbauer*, University of Washington; Dan Suciu, University of Washington

321 Automatically Incorporating New Sources in Keyword Search-Based Data Integration
Partha Talukdar*, University of Pennsylvania; Zachary Ives, University of Pennsylvania; Fernando Pereira, Google

325 Ef?ciently Evaluating Complex Boolean Expressions
Marcus Fontoura*, Yahoo! Research; Suhas Sadanandan, Yahoo! Inc; Jayavel Shanmugasundaram, Yahoo! Research; Sergei Vassilvitski, Yahoo! Research; Erik Vee, Yahoo! Research; Srihari Venkatesan, Yahoo! Inc; Jason Zien, Yahoo! Inc

355 Durable Top-k Search in Document Archives
Leong Hou U, The University of Hong Kong; Nikos Mamoulis*, University of Hong Kong; Klaus Berberich, MPII; Srikanta Bedathur, MPII

356 Non-homogeneous Generalization in Privacy Preserving Data Publishing
Wai Kit Wong, University of Hong Kong; Nikos Mamoulis*, University of Hong Kong; David Cheung, University of Hong Kong

364 Active Knowledge: Dynamically Enriching RDF Knowledge Bases by Web Services
Nicoleta Preda*, Max-Planck Institute; Fabian Suchanek, Microsoft Search Labs; Gjergji Kasneci, Max-Planck Institute for Informatics ; Thomas Neumann, Max-Planck Institute, Germany; Wenjun Yuan, Max-Planck Institute for Informatics ; Gerhard Weikum, Max-Planck Institute of Computer Sc.

374 How to ConQueR Why-Not Questions
Quoc Trung Tran*, NUS; Chee-Yong Chan, National University of Singapore

376 Indexing Multi-dimensional Data in a Cloud System
Jinbao Wang*, Harbin Institute of Technology; Hong Gao, Harbin Institute of Technology; Sai Wu, National Univ. of Singapore; Beng chin Ooi, National University of Singapore

378 Finding Maximal Cliques in Massive Networks by H*-Graph
James Cheng*, ; Yiping Ke, CUHK; Ada Fu, CUHK; Jeffrey Xu Yu, Chinese University of Hong Kong; Linhong Zhu, NTU, Singapore

381 Connected Substructure Similarity Search
Haichuan Shang*, UNSW; Xuemin Lin, University of New South Wales; Wei Wang, University of New South Wales; Jeffrey Xu Yu, Chinese University of Hong Kong; Ying Zhang, UNSW

386 Call to Order: A Hierarchical Browsing Approach to Eliciting Users' Preference
Feng Zhao*, NUS; Gautam Das, University of Texas at Arlington; Kian-Lee Tan, National University of Singapore; Anthony Tung, National University of Singapore

396 Continuous Sampling for Online Aggregation Over Multiple Queries
Sai Wu*, National Univ. of Singapore; Beng chin Ooi, National University of Singapore; Kian-Lee Tan, National University of Singapore

403 Histograms Reloaded: The Merits of Bucket Diversity
Carl-Christian Kanne *, Univ. of Mannheim; Guido Moerkotte, University of Mannheim

406 Threshold Query Optimization for Uncertain Data
Yinian Qi*, Purdue University; Rohit Jain, Purdue University; Sunil Prabhakar, "Purdue University, USA"; Sarvjeet Singh,

409 Boosting Spatial Pruning: On Optimal Pruning of MBRs
Tobias Emrich, Ludwig-Maximilians-Universitaet Muenchen; Hans-Peter Kriegel, University of Munich; Peer Kroeger, Ludwig-Maximilians-Universitaet Muenchen; Matthias Renz*, Ludwig-Maximilians-Universitaet Muenchen; Andreas Zuefle, Ludwig-Maximilians-Universitaet Muenchen

412 Schema Clustering and Retrieval for Multi-domain Pay-As-You-Go Data Integration Systems
Hatem Mahmoud*, University of Waterloo; Ashraf Aboulnaga, University of Waterloo

416 Variance Aware Optimization of Parameterized Queries
Surajit Chaudhuri, Microsoft Research; Hongrae Lee, University of British Columbia; Vivek Narasayya*, Microsoft Research

419 Positional Update Handling in Column Stores
Sandor Heman, VectorWise; Marcin Zukowski, VectorWise; Niels Nes, ; Lefteris Sidirourgos, CWI; Peter Boncz*, CWI

423 Expressive and Flexible Access to Web-Extracted Data: A Keyword-based Structured Query Language
Jeffrey Pound*, University of Waterloo; Ihab Ilyas, U of Waterloo; Grant Weddell, University of Waterloo

427 TACO: Tunable Approximate Computation of Outliers in wireless sensor networks
Nikos Giatrakos, Unipi; Yannis Kotidis, Athens University of Economics and Business (AUEB) ; Antonios Deligiannakis*, Technical University of Crete; Vasilis Vassalos, Athens University of Economics and Business; Yannis Theodoridis,

431 Structured Annotations of Web Queries
Nikos Sarkas*, University of Toronto; Stelios Paparizos, Microsoft Research; Panayiotis Tsaparas, Microsoft Research

437 Similarity Search and Locality Sensitive Hashing using Ternary Content Addressable Memories
Rajendra Shinde*, Stanford University; Ashish Goel, Stanford University; Pankaj Gupta, ; Debojyoti Dutta,

445 On Active Learning of Record Matching Packages
Arvind Arasu*, Microsoft Research; Michaela Goetz, Cornell University; Raghav Kaushik, Microsoft Research

447 PR-Join: A Non-Blocking Join Achieving Higher Early Result Rate with Statistical Guarantees
Shimin Chen*, Intel Labs Pittsburgh; Phillip Gibbons, Intel Labs Pittsburgh; Suman Nath, Microsoft

451 PODS: A New Model and Processing Algorithms for Uncertain Data Streams
Thanh Tran*, UMass Amherst; Liping Peng, UMass Amherst; Boduo Li, UMass Amherst; Yanlei Diao, University of Massachusetts; Anna Liu, UMass Amherst

457 Probabilistic String Similarity Joins
Jeffrey Jestes, Computer Science Department, FSU; Feifei Li*, Florida State University; Zhepeng Yan, HKUST; Ke Yi, HKUST

458 Lineage Processing over Correlated Probabilistic Databases
BHARGAV KANAGAL*, University of Maryland; Amol Deshpande, Univ of Maryland

468 Preserving Privacy and Fairness in Peer-to-Peer Data Integration
Hazem Elmeleegy*, Purdue University; Mourad Ouzzani, Purdue University; Ahmed Elmagarmid, Purdue University; Ahmad Abusalah, Purdue University

482 Fast Approximate Correlation for Massive Time-series Data
Abdullah Mueen*, UC Riverside; Suman Nath, Microsoft; Jie Liu, Microsoft Research

486 Unbiased estimation of size and other aggregates over hidden web databases
Arjun Dasgupta*, University of Texas Arlington; Xin Jin, George Washington University; Bradley Jewell, University of Texas at Arlington; Nan Zhang, George Washington University; Gautam Das, University of Texas at Arlington

491 Pregel: A System for Large-Scale Graph Processing
Greg Malewicz, Google, Inc.; Matthew Austern, Google, Inc.; Aart Bik, Google, Inc.; James Dehnert, Google, Inc.; Ilan Horn, Google, Inc.; Naty Leiser, Google, Inc.; Grzegorz Czajkowski*, Google, Inc.

510 K-Nearest Neighbor Search for Fuzzy Objects
Kai Zheng*, University of Queensland; Pui Cheong Fung, ; Xiaofang Zhou,

516 Low Overhead Concurrency Control in Partitioned DBMSs
Evan Jones, MIT; Daniel Abadi*, Yale; Samuel Madden, MIT

518 I4E: Interactive Investigation of Iterative Information Extraction
Anish Das Sarma*, Yahoo Research; Alpa Jain, Yahoo; Divesh Srivastava, AT&T Labs - Research

527 Monte Carlo Processing of Probabilistic Satisfiability Queries in MCDB
Luis Perez, Rice University; Subi Arumugam, U Florida; Christopher Jermaine*, Rice U.

536 ERACER: A Database Approach for Statistical Inference and Data Cleaning
Chris Mayfield*, Purdue University; Jennifer Neville, Purdue University; Sunil Prabhakar, "Purdue University, USA"

537 The DataPath System: A Data-Centric Analytic Processing Engine for Large Data Warehouses
Subi Arumugam, U Florida; Alin Dobra, UFL; Christopher Jermaine*, Rice U.; Luis Perez, Rice University; Niketan Pansare, Rice University

540 ONDUX: On-Demand Unsupervised Learning for Information Extraction
Eli Vilarinho*, Federal University of Amazonas; Altigran Silva, UFAM; Marcos Goncalves, UFMG; Edleno de Moura, Federal University of Amazonas

564 Ajax development made easy: A query-driven framework with browser/server transparency and optimization
Yupeng FU, UCSD; Keith Kowalczykowski, app2you Inc; Yannis Papakonstantinou*, UCSD; Kevin Keliang Zhao, UCSD; Kian Win Ong, UC San Diego

570 Analyzing the Energy Efficiency of a Database Server
Dimitris Tsirogiannis*, University of Toronto; Stavros Harizopoulos, HP Labs; Mehul Shah, HP Labs

Welcome

Organization

Links

SIGMOD Program

PODS Program

For Attendees

Calls For Submissions

Accepted Research Papers