İlişkisel veri tabanlarında mükerrer kayıtların makine öǧrenmesiyle tespiti
View/ Open
Date
2018-07-05Author
Bayrak, Ahmet TuğrulYılmaz, Aykut İnan
Yılmaz, Kemal Burak
Düzağaç, Remzi
Yıldız, Olcay Taner
Metadata
Show full item recordCitation
Bayrak, A. T., Yılmaz, A. I., Yılmaz, K. B., Düzağaç, R. & Yıldız, O. T. (2018). Near duplicate detection in relational databases. Paper presented at the 26th IEEE Signal Processing and Communications Applications Conference, SIU 2018, 1-4. doi:10.1109/SIU.2018.8404678Abstract
Veri miktarının artışına paralel olarak, ilişkisel veri tabanlarında mükerrer kayıtlar da artmaktadır. Artan bu kayıtlar kullanıldıkları rapor veya analizlerde tutarsızlığa sebep olabilmektedir. Bu sorunu en aza indirgemek için yaptığımız çalışmada, kayıtların birbirlerine olan benzerlikleri ve alan uzmanlık bilgisiyle belirlenen ağırlıklar, öznitelik olarak kullanılarak makine öğrenmesi algoritmaları ile mükerrer kayıtların bulunması hedeflenmiştir. Yapılan işlem sonucunda 9301467 satır veride 28412 mükerrer çift tespit edilmiştir. Bulunan bu mükerrer kayıtlar veri kaynağından temizlenerek verinin daha tutarlı hale gelmesi sağlanmaktadır. While data amount increases, number of duplicate records in relational databases increase gradually. The duplicate records might cause inconsistency on reports and analyzes. To reduce the effects of this problem, we aim to detect duplicate records using machine learning algorithms with features that are produced by similarity of the records. We achieved to detect 28412 duplicate records in 9301467 records. The detected duplicate rows are removed from the data source and the data become more consistent.
Source
26th IEEE Signal Processing and Communications Applications Conference, SIU 2018Related items
Showing items related by title, author, creator and subject.
-
Aynı oteli temsil eden farklı kayıtlar için akıllı eşleştirme
Bayrak, Ahmet Tuğrul; Özbek, Eyüp Erkan; Kestepe, Sedat; Yıldız, Olcay Taner (Institute of Electrical and Electronics Engineers Inc., 2019-09)Otel sayısının her geçen gün arttığı turizm sektöründe, aracı firmaların tüm oteller ile ayrı ayrı çalışma imkanı bulunmadığından, firmalar dünya üzerinde bir çok otelle anlaşması bulunan servis sağlayıcılarıyla beraber ... -
Extension of conventional co-training learning strategies to three-view and committee-based learning strategies for effective automatic sentence segmentation
Dalva, Doğan; Güz, Ümit; Gürkan, Hakan (IEEE, 2018)The objective of this work is to develop effective multi-view semi-supervised machine learning strategies for sentence boundary classification problem when only small sets of sentence boundary labeled data are available. ... -
Effective semi-supervised learning strategies for automatic sentence segmentation
Dalva, Doğan; Güz, Ümit; Gürkan, Hakan (Elsevier Science BV, 2018-04-01)The primary objective of sentence segmentation process is to determine the sentence boundaries of a stream of words output by the automatic speech recognizers. Statistical methods developed for sentence segmentation requires ...