Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Документ Microsoft Word.docx
Скачиваний:
6
Добавлен:
11.02.2015
Размер:
69.64 Кб
Скачать

Очистка данных

Как уже говорилось в главе 1, ценные данные точными, полными, экономичный, гибкий, надежный, соответствующий, простой, своевременной, проверке, доступной и безопасной.База данных также должна быть надлежащим образом спроектирована. Целью очистки данных состоит в разработке данных с этими характеристиками. База данных Considera в фитнес-центр предназначен для отслеживания членских взносов.Таблица содержит имя атрибута, номер телефона, пол, взносы оплатили, и платной (табл 5.3). Как записей в таблице 5.3, показывают, Анита Браун и Sim Томас выплатили свои взносы в сентябре. Сим платил взносы в два этапа. Обратите внимание, что первичный ключ однозначно идентифицирует каждую запись. Как вы увидите дальше, эта проблема должна быть исправлена.

Потому что Sim Томас дважды заплатили взносы в сентябре, данные в базе данных теперь избыточно.Имя, номер телефона, и пол для Томаса повторяются в двух записях. Обратите внимание, что данные в базе данных также не согласуется: Томас изменилась его номер телефона, но только на одной из записей отражает это изменение. Дальнейшее сокращение надежность этой базы данных является отсутствие первичного ключа однозначно идентифицировать запись Sim Томаса.Первый Томас может быть Sim Томас, но второй может быть Стив Томас. Эти проблемы и нарушения в данных называются аномалиями. Аномалии данных часто приводит к неправильной информации, в результате чего пользователи баз данных, были неверно о реальных условиях. Аномалии должны быть исправлены.

Для решения этих проблем в базе данных в фитнес-центре, мы можем добавить первичный ключ, например, членский номер, и поместить данные в двух таблицах: таблице Фитнес-центр членов с пола, номер телефона и связанной с ними информации, а Сборы Платные таблицу с взносы выплачиваются и платной (см Столы 5,4 и 5,5). Обе таблицы включает число членов атрибут, так что они могут быть связаны между собой.

Отношения в таблице 5.4 и таблице 5.5 уменьшить избыточность и устранить потенциальную проблему, имеющий две различные телефонные номера для того же элемента. Также отметим, что число членов дает каждую запись в таблице Фитнес-центр Члены первичный ключ. Потому что Сборы Платные таблице перечислены две записи оплаты ($ 15) с таким же номером члена (SN656), один человек явно сделал платежи, а не два разных человека. Формализованные подходы, такие как нормализации баз данных, часто используются для очистки проблемы с данными.

Overview of Database Types

Database management systems can range from small, inexpensive software packages to sophisticated systems costing hundreds of thousands of dollars. The following sections discuss a few popular alternatives. See Figure 5.9 for one example.

Flat File

A flat file is a simple database program whose records have no relationship to one another. Flat file databases are often used to store and manipulate a single table or file, and do not use any of the database models discussed previously, such as the relational model. Many spreadsheet and word processing programs have flat file capabilities. These software packages can sort tables and make simple calculations and comparisons. Microsoft OneNote is designed to let people put ideas, thoughts, and notes into a computer file. In OneNote, each note can be placed anywhere on a page or in a box on a page, called a container. Pages are organized into sections and subsections that appear as colored tabs. After you enter a note, you can retrieve, copy, and paste it into other applications, such as word processing and spreadsheet

programs. Microsoft uses OneNote as the primary technology for its management training classes. OneNote allows managers-in-training to collect photos, handwritten notes, online content, and audio recordings in one flat file.12 OneNote enables Microsoft to offer training to a larger number of managers, while saving $360,000 per year in printed training materials.

Similar to OneNote, Evernote is a free database that can store notes and other pieces of information. Considering the amount of information today’s high-capacity hard disks can store, the popularity of databases that can handle unstructured data will continue to grow.

Single User A database installed on a personal computer is typically meant for a single user. Microsoft Office Access and FileMaker Pro are designed to support single-user implementations. Microsoft InfoPath is another example of a database program that supports a single user. This software is part of the Microsoft Office suite, and it helps people collect and organize information from a variety of sources. InfoPath has built-in forms that can be used to enter expense information, timesheet data, and a variety of other information.

Multiple Users

Small, midsize, and large businesses need multiuser DBMSs to share information throughout the organization over a network. These more powerful, expensive systems allow dozens or hundreds of people to access the same database system at the same time. Popular vendors for multiuser database systems include Oracle, Microsoft, Sybase, and IBM. Many single-user databases, such as Microsoft Access, can be implemented for multiuser support over a network, though they often are limited in the amount of users they can support.

All DBMSs share some common functions, such as providing a user view, physically storing and retrieving data in a database, allowing for database modification, manipulating data, and generating reports. These DBMSs can handle the most complex data-processing tasks, and because they are accessed over a network, one database can serve many locations around the world. For example, Surya Roshni Ltd is a major manufacturer of lighting products based in New Delhi, India, with a global reach. One Oracle database stored on servers in New Delhi provides corporate information to associates around the world.