Datenintegrität

Datenintegrität ist die Wartung und die Zusicherung von Datengenauigkeit und Konsistenz über die gesamte Lebenszyklus[1] und ist ein kritischer Aspekt für das Design, die Implementierung und Verwendung eines Systems, das Daten speichert, Prozesse oder abruft. Der Begriff ist im Bereich des Umfangs weit verbreitet und kann je nach dem spezifischen Kontext sehr unterschiedliche Bedeutungen haben - auch unter demselben allgemeinen Dach von Computer. Es wird manchmal als Proxy -Begriff für verwendet Datenqualität,[2] während Datenvalidierung ist eine Voraussetzung für die Datenintegrität.[3] Datenintegrität ist das Gegenteil von Datenkorruption.[4] Die allgemeine Absicht einer Datenintegritätstechnik ist gleich: Stellen Sie sicher, dass die Daten genau wie beabsichtigt aufgezeichnet werden (z. B. eine Datenbank, die sich gegenseitig ausschließende Möglichkeiten abgelehnt). Darüber hinaus auf später AbrufStellen Sie sicher, dass die Daten übereinstimmen, wie sie ursprünglich aufgezeichnet wurden. Kurz gesagt, die Datenintegrität zielt darauf ab, unbeabsichtigte Änderungen an Informationen zu verhindern. Datenintegrität ist nicht zu verwechseln mit DatensicherheitDie Disziplin des Schutzes von Daten vor nicht autorisierten Parteien.

Unbeabsichtigte Änderungen an Daten als Ergebnis eines Speicher-, Abruf- oder Verarbeitungsvorgangs, einschließlich böswilliger Absicht, unerwarteter Hardwarefehler und menschlicher Fehler, ist Versagen der Datenintegrität. Wenn die Änderungen das Ergebnis eines nicht autorisierten Zugriffs sind, kann dies auch ein Fehler bei der Datensicherheit sein. Abhängig von den Daten könnte sich dies so gutartig wie ein einzelnes Pixel in einem Bild manifestieren, das eine andere Farbe als ursprünglich aufgezeichnet hat Lebenskritisches System.

Integritätstypen

Körperliche Unversehrtheit

Die physische Integrität befasst sich mit Herausforderungen, die mit dem korrekten Speichern und Abholen der Daten selbst verbunden sind. Herausforderungen mit körperlicher Integrität können einschließen elektromechanisch Fehler, Designfehler, Material Ermüdung, Korrosion, StromausfälleNaturkatastrophen und andere spezielle Umweltgefahren wie z. ionisierende Strahlung, extreme Temperaturen, Drucke und G-Kräfte. Die Gewährleistung der physischen Integrität umfasst Methoden wie z. überflüssig Hardware, an unterbrechungsfreie Stromversorgungbestimmte Arten von ÜBERFALLEN Arrays, Strahlung verhärtet Pommes, Chips, Fehlerkorrigierender Speicher, Verwendung von a Clustered DateisystemVerwenden von Dateisystemen, die Blockebene verwenden Überprüfungen wie zum Beispiel ZFS, Speicherarrays, die Paritätsberechnungen berechnen wie z. Exklusiv oder oder verwenden a Kryptografische Hash -Funktion und sogar eine haben Watchdog -Timer auf kritische Subsysteme.

Die physikalische Integrität verwendet häufig einen umfassenden Einsatz von Fehler, die als Erkennungsalgorithmen bekannt sind Fehlerkorrigierende Codes. Menschen-induzierte Datenintegritätsfehler werden häufig unter Verwendung einfacherer Überprüfungen und Algorithmen wie der erkannt DAMM -Algorithmus oder Luhn -Algorithmus. Diese werden verwendet, um die Datenintegrität nach manueller Transkription von einem Computersystem zu einem anderen durch einen menschlichen Vermittler (z. B. Kreditkarte oder Bankrouting -Nummern) zu erhalten. Computer-induzierte Transkriptionsfehler können durch erkannt werden Hash Funktionen.

In Produktionssystemen werden diese Techniken zusammen verwendet, um verschiedene Datenintegrität zu gewährleisten. Zum Beispiel ein Computer Dateisystem kann auf einem fehlertoleranten RAID Stille Datenbeschäftigung. Als ein weiteres Beispiel könnte ein Datenbankverwaltungssystem mit dem konform sein SÄURE Eigenschaften, aber der interne Schreibcache des RAID -Controllers oder des Festplattenlaufwerks ist möglicherweise nicht der Fall.

Logische Integrität

Diese Art von Integrität befasst sich mit dem Richtigkeit oder Rationalität von einem Datenstück bei einem bestimmten Kontext. Dies beinhaltet Themen wie Referenzintegrität und Entitätsintegrität in einem relationale Datenbank oder korrekt ignorieren, um unmögliche Sensordaten in Robotersystemen zu ignorieren. Diese Bedenken beinhalten sicher, dass die Daten angesichts ihrer Umgebung "sinnvoll" sind. Herausforderungen umfassen Software -Fehler, Designfehler und menschliche Fehler. Häufige Methoden zur Gewährleistung der logischen Integrität umfassen Dinge wie z. Überprüfen Sie die Einschränkungen, Ausländische Schlüsselbeschränkungen, Programm Behauptungenund andere Laufzeitprüfungen.

Sowohl die physische als auch die logische Integrität haben häufig viele häufige Herausforderungen wie menschliche Fehler und Designfehler. Beide müssen sich angemessen mit gleichzeitigen Anfragen zur Aufzeichnung und Abholung von Daten befassen, von denen letzteres für sich allein ein Thema ist.

Wenn ein Datensektor nur einen logischen Fehler hat, kann er durch Überschreiben mit neuen Daten wiederverwendet werden. Bei einem physischen Fehler ist der betroffene Datensektor dauerhaft unbrauchbar.

Datenbanken

Die Datenintegrität enthält Richtlinien für VorratsdatenspeicherungDas Angeben oder Gewährleisten der Zeitdatendaten kann in einer bestimmten Datenbank beibehalten werden. Um die Datenintegrität zu erreichen, werden diese Regeln konsequent und routinemäßig auf alle Daten angewendet, die in das System eintreten, und jede Entspannung der Durchsetzung kann zu Fehlern in den Daten führen. Durch die Implementierung von Überprüfungen der Daten wie möglich an die Eingabequelle (z. B. die Dateneingabe menschlicher Daten) führt zu weniger fehlerhaften Daten, um das System einzugeben. Die strikte Durchsetzung der Datenintegritätsregeln führt zu niedrigeren Fehlerraten und zeitspeicherte Fehlerbehebung und Verfolgung fehlerhafter Daten und der Fehler, die es für Algorithmen verursacht.

Die Datenintegrität enthält auch Regeln, die die Beziehungen definieren, die ein Datenstück für andere Datenstücke haben kann, wie z. B. a Kunde Rekord darf mit dem Kauf verlinken Produkte, aber nicht mit nicht verwandten Daten wie z. Unternehmensgüter. Die Datenintegrität umfasst häufig Überprüfungen und Korrekturen für ungültige Daten, basierend auf einem festen Schema oder ein vordefinierter Satz von Regeln. Ein Beispiel für die Eingabe von Textdaten, bei denen ein Datumszeitwert erforderlich ist. Die Regeln für die Datenableitung sind ebenfalls anwendbar und geben an, wie ein Datenwert basierend auf Algorithmus, Mitwirkenden und Bedingungen abgeleitet wird. Es gibt auch die Bedingungen an, wie der Datenwert erneut abgeleitet werden kann.

Arten von Integritätsbeschränkungen

Die Datenintegrität wird normalerweise in a durchgesetzt Datenbanksystem durch eine Reihe von Integritätsbeschränkungen oder Regeln. Drei Arten von Integritätsbeschränkungen sind ein inhärenter Bestandteil des relationalen Datenmodells: Integrität der Entität, Referenzintegrität und Domänenintegrität.

  • Entitätsintegrität betrifft das Konzept von a Primärschlüssel. Die Integrität der Entität ist eine Integritätsregel, die besagt, dass jede Tabelle einen Primärschlüssel haben muss und dass die als Primärschlüssel gewählte Spalte oder Spalten eindeutig und nicht null sein sollte.
  • Referenzintegrität betrifft das Konzept von a Unbekannter Schlüssel. Die Referenzintegritätsregel besagt, dass jeder Wert aus dem fremden Schlüssel nur in einem von zwei Staaten sein kann. Der übliche Zustand ist, dass sich der Wert aus dem Fremdschlüssel auf einen Primärschlüsselwert einer Tabelle in der Datenbank bezieht. Gelegentlich, und dies hängt von den Regeln des Datenbesitzers ab, kann ein Außenschlüsselwert sein Null. In diesem Fall sagen wir ausdrücklich, dass entweder keine Beziehung zwischen den in der Datenbank dargestellten Objekten besteht oder dass diese Beziehung unbekannt ist.
  • Domänenintegrität Gibt an, dass alle Spalten in einer relationalen Datenbank auf einer definierten Domäne deklariert werden müssen. Die primäre Dateneinheit im relationalen Datenmodell ist das Datenelement. Solche Datenelemente sollen nicht dekompossierbar oder atomar sind. Eine Domäne ist eine Reihe von Werten desselben Typs. Domänen sind daher Wertepools, aus denen tatsächliche Werte in den Spalten einer Tabelle entnommen werden.
  • Benutzerdefinierte Integrität Bezieht sich auf eine Reihe von Regeln, die von einem Benutzer angegeben sind, der nicht zur Kategorien Entity-, Domain und Referenziale Integrität gehört.

Wenn eine Datenbank diese Funktionen unterstützt, liegt es in der Verantwortung der Datenbank, sowohl die Datenintegrität als auch die zu gewährleisten Konsistenzmodell Für die Datenspeicherung und -abruf. Wenn eine Datenbank diese Funktionen nicht unterstützt, liegt es in der Verantwortung der Anwendungen, die Datenintegrität zu gewährleisten, während die Datenbank die unterstützt Konsistenzmodell Für die Datenspeicherung und -abruf.

Ein einzelnes, gut kontrolliertes und genau definiertes Datenintegritätssystem nimmt zu

  • Stabilität (ein zentrales System führt alle Datenintegritätsvorgänge aus)
  • Leistung (alle Datenintegritätsvorgänge werden in derselben Ebene wie das Konsistenzmodell ausgeführt)
  • Wiederverwendbarkeit (alle Anwendungen profitieren von einem einzelnen zentralisierten Datenintegritätssystem)
  • Wartbarkeit (ein zentrales System für alle Datenintegritätsverwaltung).

Modern Datenbanken Unterstützen Sie diese Funktionen (siehe Vergleich der relationalen Datenbankverwaltungssysteme), und es ist zur De -facto -Verantwortung der Datenbank geworden, um die Datenintegrität zu gewährleisten. Unternehmen und in der Tat viele Datenbanksysteme bieten Produkte und Dienstleistungen an, um Legacy -Systeme in moderne Datenbanken zu migrieren.

Beispiele

Ein Beispiel für einen Datenintegritätsmechanismus ist die Eltern-Kind-Beziehung verwandter Datensätze. Wenn ein übergeordneter Datensatz einen oder mehrere verwandte untergeordnete Aufzeichnungen besitzt, werden alle referenziellen Integritätsprozesse von der Datenbank selbst behandelt, was automatisch die Genauigkeit und Integrität der Daten sicherstellt, damit kein untergeordnetes Datensatz ohne Eltern vorhanden ist (auch als verwaiste als verwaiste bezeichnet) vorhanden ist. und dass kein Elternteil ihre Kinderunterlagen verliert. Es stellt auch sicher, dass kein übergeordneter Datensatz gelöscht werden kann, während die übergeordnete Datensätze etwaige untergeordnete Datensätze besitzen. All dies wird auf Datenbankebene behandelt und erfordert keine Codierungsintegritätsprüfungen in jede Anwendung.

Dateisysteme

Verschiedene Forschungsergebnisse zeigen, dass weder weit verbreitet Dateisysteme (einschließlich UFS, Ext, Xfs, JFS und NTFS) noch Hardware -Überfall Lösungen bieten ausreichend Schutz vor Datenintegritätsproblemen.[5][6][7][8][9]

Einige Dateisysteme (einschließlich Btrfs und ZFS) interne Daten bereitstellen und Metadaten Überprüfungen, die zum Erkennen verwendet werden Stille Datenbeschäftigung und Verbesserung der Datenintegrität. Wenn eine Korruption auf diese Weise erkannt wird und interne RAID -Mechanismen, die von diesen Dateisystemen bereitgestellt werden, auch verwendet werden, können solche Dateisysteme zusätzlich beschädigte Daten auf transparente Weise rekonstruieren.[10] Dieser Ansatz ermöglicht einen verbesserten Datenintegritätsschutz, der die gesamten Datenpfade abdeckt, die normalerweise als bekannt sind End-to-End-Datenschutz.[11]

Datenintegrität wie für verschiedene Branchen angewendet

  • Die USA Food and Drug Administration Hat Leitlinien zur Datenintegrität für die Pharmahersteller entworfen, die erforderlich sind, um sich an den US -Bundesvorschriften zu halten 21 CFR -Teile 210–212.[12] Außerhalb der USA wurden von Großbritannien (2015), der Schweiz (2016) und Australien (2017) ähnliche Datenintegritätsanleitungen ausgestellt.[13]
  • Verschiedene Standards für die Herstellung von Medizinprodukten befassen sich entweder direkt oder indirekt, einschließlich der Datenintegrität ISO 13485, ISO 14155und ISO 5840.[14]
  • Anfang 2017 die Regulierungsbehörde der Finanzbranche (FINRA) stellte fest, dass Datenintegritätsprobleme mit automatisierten Handels- und Geldbewegungsüberwachungssystemen festgestellt wurden, dass "die Entwicklung eines Datenintegritätsprogramms zur Überwachung der Richtigkeit der eingereichten Daten" zu einer Priorität wird.[15] Anfang 2018 sagte FINRA, es würde seinen Ansatz zur Datenintegrität auf "Richtlinien und Verfahren für Technologieveränderungen" und die Wertpapierprüfungen von Treasury -Wertpapieren erweitern.[16]
  • Andere Sektoren wie Bergbau[17] und Produktherstellung[18] konzentrieren sich zunehmend auf die Bedeutung der Datenintegrität für die zugehörigen Automatisierungs- und Produktionsüberwachungsgüter.
  • Cloud -Speicheranbieter haben seit langem erhebliche Herausforderungen, um die Integrität oder Herkunft von Kundendaten und Verfolgung von Verstößen zu gewährleisten.[19][20][21]

Siehe auch

Verweise

  1. ^ Boritz, J. "Ist die Ansichten von Praktikern zu Kernkonzepten der Informationsintegrität". Internationales Journal of Accounting Information Systems. Elsevier. Archiviert von das Original am 5. Oktober 2011. Abgerufen 12. August 2011.
  2. ^ Was ist Datenintegrität? Erfahren Sie, wie Sie Datenbankdatenintegrität über Prüfungen, Tests und Best Practices sicherstellen können
  3. ^ Was ist Datenintegrität? Datenschutz 101
  4. ^ Aus dem Buch: Uberveillance und die sozialen Auswirkungen von Mikrochip -Implantaten: Emerging Seite 40
  5. ^ Vijayan Prabhakaran (2006). "Eisendateisysteme" (PDF). Doktor der Philosophie in Computerwissenschaften. Universität von Wisconsin-Madison. Abgerufen 9. Juni 2012.
  6. ^ "Parität verloren und Parität wiedererlangt".
  7. ^ "Eine Analyse der Datenbeschädigung im Speicherstapel" (PDF).
  8. ^ "Einfluss der Festplattenkorruption auf Open-Source-DBMs" (PDF).
  9. ^ "Baarf.com". Baarf.com. Abgerufen 4. November, 2011.
  10. ^ Bierman, Margaret; Grimmer, Lenz (August 2012). "Wie ich die erweiterten Funktionen von BTRFs verwende". Abgerufen 2014-01-02.
  11. ^ Yupu zhang; Abhishek Rajimwale; Andrea Arpaci-Dusseau; Remzi H. Arpaci-Dusseau (2010). "End-to-End-Datenintegrität für Dateisysteme: Eine ZFS-Fallstudie" (PDF). Usenix -Konferenz in Datei- und Speichertechnologien. Citeseerx 10.1.1.154.3979. S2CID 5722163. WikidataQ111972797. Abgerufen 2014-01-02.
  12. ^ "Datenintegrität und Einhaltung von CGMP: Leitlinien für die Industrie" (PDF). US -amerikanische Food and Drug Administration. April 2016. Abgerufen 20. Januar 2018.
  13. ^ Davidson, J. (18. Juli 2017). "Datenintegritätsführung auf der ganzen Welt". Vertrag Pharma. Rodman Media. Abgerufen 20. Januar 2018.
  14. ^ Scannel, P. (12. Mai 2015). "Datenintegrität: Eine Perspektive aus dem Regulierungs- und Standard -Rahmen für Medizinprodukte" (PDF). Datenintegritätsseminar. Parenteral Drug Association. S. 10–57. Abgerufen 20. Januar 2018.
  15. ^ Cook, R. (4. Januar 2017). "2017 Regulierungs- und Prüfungsrücksatzerbrief". Regulierungsbehörde der Finanzbranche. Abgerufen 20. Januar 2018.
  16. ^ Cook, R. (8. Januar 2018). "2018 Regulierungs- und Prüfungsrücksatzbrief". Regulierungsbehörde der Finanzbranche. Abgerufen 20. Januar 2018.
  17. ^ "Datenintegrität: Ermöglichen Sie effektive Entscheidungen im Bergbauvorgang" (PDF). Akzenture. 2016. Abgerufen 20. Januar 2018.
  18. ^ "Industrie 4.0 und Cyber-Physical Systems erhöhen die Datenintegrität imperativ". Nymi Blog. Nymi, Inc. 24. Oktober 2017. Abgerufen 20. Januar 2018.
  19. ^ Priyadharshini, geb.; Parvathi, P. (2012). "Datenintegrität im Cloud -Speicher". Verfahren aus der Internationalen Konferenz 2012 über Fortschritte in Ingenieurwesen, Wissenschaft und Management. ISBN 9788190904223.
  20. ^ Zafar, F.; Khan, A.; Malik, S.U.R.; et al. (2017). "Eine Übersicht über Cloud Computing -Datenintegritätsschemata: Designherausforderungen, Taxonomie und zukünftige Trends". Computer & Sicherheit. 65 (3): 29–49. doi:10.1016/j.cose.2016.10.006.
  21. ^ Imran, M.; Hlavacs, H.; Haq, I.U.I.; et al. (2017). "Provenienzbasierte Datenintegritätsprüfung und -überprüfung in Cloud -Umgebungen". PLUS EINS. 12 (5): E0177576. Bibcode:2017PLOSO..1277576i. doi:10.1371/journal.pone.0177576. PMC 5435237. PMID 28545151.

Weitere Lektüre