Διασφάλιση ακεραιότητας δεδομένων σε συστήματα DWH-BI με 3 τύπους δοκιμών

Οι χρήστες της αποθήκευσης δεδομένων και της επιχειρηματικής ευφυΐας χρειάζονται αξιόπιστα δεδομένα. Πώς να το διασφαλίσετε; Εκτελέστε τρεις τύπους δοκιμών για να επιβεβαιώσετε την ακεραιότητα των δεδομένων.
Στο Γλωσσάρι IT της Gartner, ακεραιότητα δεδομένων και έλεγχος ακεραιότητας δεδομένων ορίζονται ως εξής:
- Ακεραιότητα δεδομένων: η ποιότητα των δεδομένων που βρίσκονται σε αποθήκες δεδομένων και αντικείμενα βάσης δεδομένων. Η μέτρηση που λαμβάνουν οι χρήστες όταν αναλύουν την αξία και την αξιοπιστία των δεδομένων.
- Έλεγχος ακεραιότητας δεδομένων: επαλήθευση ότι τα δεδομένα που μετακινήθηκαν, αντιγράφηκαν, προήλθαν και μετατράπηκαν είναι ακριβή και λειτουργούν σωστά σε ένα μόνο υποσύστημα ή εφαρμογή.
Οι διαδικασίες ακεραιότητας δεδομένων δεν θα πρέπει μόνο να βοηθούν στην επιβεβαίωση της ακεραιότητας των δεδομένων ενός έργου, αλλά και να βελτιώνουν και να διατηρούν την ακρίβεια και τη συνέπεια των δεδομένων κατά τη διάρκεια του κύκλου ζωής του. Αυτό περιλαμβάνει βέλτιστες πρακτικές διαχείρισης δεδομένων, όπως η αποτροπή αλλαγής δεδομένων κάθε φορά που αντιγράφονται ή μετακινούνται.
Θα πρέπει να καθιερωθούν διαδικασίες για τη διατήρηση της ακεραιότητας των δεδομένων της Αποθήκης Δεδομένων και της Επιχειρηματικής Ευφυΐας (DWH/BI). Τα δεδομένα, στην κατάσταση παραγωγής τους, είναι η κινητήρια δύναμη πίσω από την αποτελεσματική λήψη αποφάσεων. Τα σφάλματα με την ακεραιότητα των δεδομένων συνήθως προκύπτουν από ανθρώπινο λάθος, μη συμμορφούμενες διαδικασίες λειτουργίας, σφάλματα στη μεταφορά δεδομένων, ελαττώματα λογισμικού, παραβίαση υλικού και φυσικό παραβίαση συσκευών.
Οι πρωτοβουλίες Data Warehouse και Business Intelligence (DWH/BI) χρειάζονται «δοκιμή ακεραιότητας δεδομένων»—διαδικασίες δοκιμών που υποστηρίζουν:
- Όλες οι πηγές αποθήκης δεδομένων και τα σχήματα στόχων
- Διαδικασίες ETL
- Στοιχεία επιχειρηματικής ευφυΐας/εφαρμογές front-end
Υπάρχουν άλλες κατηγορίες δοκιμών DWH/BI και ETL, όπως δοκιμές λειτουργικότητας, απόδοσης, ασφάλειας, επεκτασιμότητας, συστήματος και ολοκλήρωσης, από άκρο σε άκρο κ.λπ.
Ταξινομήσεις Ακεραιότητας Δεδομένων για Συστήματα DWH/BI
Ακεραιότητα δεδομένων είναι ένας όρος ομπρέλα που αναφέρεται στο συνοχή, ακρίβειακαι ορθότητα των δεδομένων που είναι αποθηκευμένα σε μια βάση δεδομένων. Υπάρχουν τρεις κύριοι τύποι ακεραιότητας δεδομένων:
- Το Entity Integrity διασφαλίζει ότι κάθε γραμμή σε έναν πίνακα (για παράδειγμα) προσδιορίζεται μοναδικά και χωρίς διπλότυπο. Η ακεραιότητα της οντότητας συχνά επιβάλλεται με την τοποθέτηση πρωτεύων κλειδί και ξένο κλειδί περιορισμούς σε συγκεκριμένες στήλες. Η δοκιμή μπορεί να επιτευχθεί με τον καθορισμό των διπλών ή μηδενικών τιμών στη δοκιμή.
- Η ακεραιότητα τομέα απαιτεί ότι κάθε σύνολο από τιμές/στήλες δεδομένων εμπίπτει σε ένα συγκεκριμένο επιτρεπτό καθορισμένο εύρος. Παραδείγματα ακεραιότητας τομέα είναι ο σωστός τύπος δεδομένων, η μορφή και το μήκος δεδομένων. Οι τιμές πρέπει να εμπίπτουν στο εύρος που ορίζεται για το σύστημα. μηδενική κατάσταση. και επιτρεπόμενες τιμές μεγέθους. Η δοκιμή μπορεί να ολοκληρωθεί, εν μέρει, χρησιμοποιώντας τιμές null, default και μη έγκυρες.
- Η Αναφορική Ακεραιότητα ασχολείται με τη διατήρηση του σχέσεις μεταξύ πινάκων Η ακεραιότητα αναφοράς επιβάλλεται συχνά με σχέσεις Πρωτεύοντος κλειδιού (PK) και ξένου κλειδιού (FK). Μπορεί να δοκιμαστεί, για παράδειγμα, διαγράφοντας τις γονικές σειρές ή τις θυγατρικές σειρές σε πίνακες.
Επαλήθευση ακεραιότητας δεδομένων σε σχήματα, διεργασίες ETL και αναφορές BI
Το πλαίσιο στο Σχήμα 1 απεικονίζει τα κύρια στοιχεία DWH/BI που ελέγχονται γενικά σε όλες τις κατηγορίες δοκιμών DWH/BI από άκρο σε άκρο. Η δοκιμή ακεραιότητας δεδομένων απαιτεί συχνά σημαντικό χρόνο και πόρους.

Τα ακόλουθα στοιχεία DWH/BI παρουσιάζονται στο πλαίσιο δοκιμών:
Επαλήθευση απαιτήσεων πηγής/στόχου δεδομένων και σχεδίων σχημάτων
Οι απαιτήσεις και οι δοκιμές σε επίπεδο σχήματος επιβεβαιώνουν σε ποιο βαθμό ο σχεδιασμός κάθε στοιχείου δεδομένων ταιριάζει με τις στοχευμένες επιχειρηματικές απαιτήσεις.
Αυτή η διαδικασία θα πρέπει να περιλαμβάνει τη δυνατότητα επαλήθευσης:
- Επιχειρηματικές και τεχνικές απαιτήσεις για όλους δεδομένα πηγής και στόχου
- Ακεραιότητα δεδομένων Προδιαγραφές τεχνικά υλοποιημένο (DBMS, συστήματα αρχείων, αρχεία κειμένου κ.λπ.)
- Μοντέλα δεδομένων για κάθε εφαρμοζόμενο στοιχείο σχήμα
- Πηγή σε στόχο αντιστοιχίσεις δεδομένων δεδομένα που φορτώνονται σε στόχους DWH. Παραδείγματα πηγών και σχετικών στόχων περιλαμβάνουν δεδομένα πηγής που φορτώνονται σε στόχους σταδιοποίησης καθώς και δεδομένα σταδιοποίησης που φορτώνονται σε στόχους αποθήκης δεδομένων ή μάρκετ δεδομένων
μικρόποιότητα χημείας αντιπροσωπεύει την ικανότητα ενός σχήματος να προβάλλει επαρκώς και αποτελεσματικά «πληροφορίες/δεδομένα». Το σχήμα σε αυτόν τον ορισμό αναφέρεται στο σχήμα της αποθήκης δεδομένων, είτε πρόκειται για ένα εννοιολογικό, λογικό ή φυσικό σχήμα, αστέρι, αστερισμό ή κανονικοποιημένο σχήμα. Ωστόσο, αυτός ο ορισμός επεκτείνεται εδώ για να συμπεριλάβει τα σχήματα όλων των αποθηκευτικών χώρων δεδομένων που χρησιμοποιούνται σε ολόκληρο το σύστημα αποθήκης δεδομένων, συμπεριλαμβανομένης της προέλευσης δεδομένων, της σταδιοποίησης, της αποθήκευσης λειτουργικών δεδομένων και των μαρτύρων δεδομένων. Είναι ωφέλιμο να αξιολογηθεί η ποιότητα του σχήματος στη φάση σχεδιασμού της αποθήκης δεδομένων.
Ο εντοπισμός, η ανάλυση και η διόρθωση ελλείψεων σχήματος θα ενισχύσει την ποιότητα του συστήματος DWH/BI. Η ποιότητα του σχήματος θα μπορούσε να εξεταστεί από διάφορες διαστάσεις, δηλαδή την ορθότητα του σχήματος, την πληρότητα του σχήματος, τη συμμόρφωση του σχήματος, την ακεραιότητα του σχήματος, την ερμηνευσιμότητα, τη δυνατότητα επεξεργασίας, την κατανοησιμότητα και τη συνοπτική αναπαράσταση.
Δοκιμή ακεραιότητας δεδομένων πηγής και στόχου
Ένα σωστά σχεδιασμένο σύστημα ETL:
- Εξάγει δεδομένα από συστήματα πηγής
- Επιβάλλει πρότυπα ποιότητας και συνέπειας δεδομένων
- Συμμορφώνει τα δεδομένα έτσι ώστε οι πηγές δεδομένων να μπορούν να χρησιμοποιηθούν συλλογικά
- Παρέχει δεδομένα σε μορφή που επιτρέπει στους προγραμματιστές εφαρμογών να δημιουργούν εφαρμογές
Οι δοκιμές και οι αξιολογήσεις ακεραιότητας της αποθήκης δεδομένων επικεντρώνονται στις διαδικασίες ETL. Για τον έλεγχο της λογικής της διαδικασίας ETL εφαρμόζονται διάφορες λειτουργικές και μη λειτουργικές μέθοδοι δοκιμών. Οι στόχοι είναι η επαλήθευση της σωστής επεξεργασίας έγκυρων και μη έγκυρων συνθηκών για όλα τα δεδομένα προέλευσης και προορισμού, διασφαλίζοντας την ακεραιότητα πρωτεύοντος και ξένου κλειδιού (δηλαδή, ακεραιότητα αναφοράς), την ορθότητα των μετασχηματισμών δεδομένων, τον καθαρισμό δεδομένων και την εφαρμογή επιχειρηματικών κανόνων.
Έλεγχος ακεραιότητας δεδομένων αναφοράς BI
Οι εφαρμογές BI παρέχουν μια διεπαφή που βοηθά τους χρήστες να αλληλεπιδρούν με τα δεδομένα του back-end. Ο σχεδιασμός αυτών των αναφορών είναι κρίσιμος για την κατανόηση και τον προγραμματισμό των δοκιμών ακεραιότητας δεδομένων.
Πολύπλοκοι επιχειρηματικοί κανόνες εφαρμόζονται συχνά στα αρχικά δεδομένα πηγής μέσω διακυβέρνηση δεδομένων στη συνέχεια φορτώνεται στην αποθήκη δεδομένων. Στη συνέχεια, οι πληροφορίες της αποθήκης δεδομένων παραδίδονται με τη μορφή πινάκων εργαλείων/αναφορών BI και είναι διαθέσιμες στα στελέχη επιχειρήσεων να λαμβάνουν κρίσιμες αποφάσεις με σιγουριά. Επομένως, είναι σημαντικό να διασφαλιστεί ότι τα δεδομένα της αποθήκης δεδομένων (τα οποία επεξεργάζονται περαιτέρω σε εφαρμογές BI) είναι ακριβή. Όσοι διεξάγουν δοκιμές εφαρμογής BI πρέπει να προετοιμαστούν για να απαντήσουν στις ερωτήσεις των επιχειρηματικών ομάδων:Αυτές οι αναφορές αντικατοπτρίζουν σωστά τους αριθμούς DW; Εάν ναι, ή αν όχι, πώς μπορούμε να βεβαιωθούμε ότι εξετάζουμε τα σωστά δεδομένα για να λάβουμε τις σωστές αποφάσεις”;
Η παραδοσιακή προσέγγιση για τη δοκιμή αναφορών BI έχει πολλά ελαττώματα. Συχνά, απαιτείται πολύς χρόνος για τον εντοπισμό και την επιδιόρθωση ζητημάτων που ανακαλύπτονται στις αναφορές BI. Οι αριθμοί στους πίνακες εργαλείων BI συχνά συγκεντρώνονται σε υψηλό επίπεδο από τη χαμηλότερη ευαισθησία του DW. Και αυτά τα ακατέργαστα δεδομένα συχνά μετασχηματίζονται σε κάθε επανάληψη κατά τη διάρκεια της διαδρομής τους στους πίνακες εργαλείων. Η επιλογή οποιασδήποτε τιμής από έναν πίνακα εργαλείων BI και, στη συνέχεια, η εναρμόνισή της με τους πίνακες δεδομένων της αποθήκης δεδομένων, είναι μια περίπλοκη και κουραστική διαδικασία.
Πλαίσιο δοκιμών ακεραιότητας δεδομένων και λίστα ελέγχου
Η επαλήθευση ακεραιότητας δεδομένων DWH/BI κατηγοριοποιείται ως σύνολο διαδικασιών. Το σχήμα 2 δείχνει ένα πλαίσιο ταξινόμησης επαλήθευσης για τις τεχνικές που ισχύουν για πηγές και στόχους σε εφαρμογές αποθήκης δεδομένων, διαδικασίας ETL και αναφοράς BI.

Τα «τι», «πότε» και «πού» της δοκιμής ενοποίησης δεδομένων DWH/BI παρουσιάζονται στο Σχήμα 3.
- Οι επικεφαλίδες στηλών αντιπροσωπεύουν πότε και πού θα πραγματοποιηθούν οι δοκιμές που σχετίζονται με τα δεδομένα
- Οι σειρές αντιπροσωπεύουν “τι” στοιχεία που σχετίζονται με δεδομένα πρέπει να ληφθούν υπόψη για δοκιμή

συμπέρασμα
- Τα δεδομένα στην τελική τους κατάσταση είναι η κινητήρια δύναμη πίσω από τη λήψη οργανωτικών αποφάσεων.
- Τα ανεπεξέργαστα δεδομένα συχνά αλλάζουν και υποβάλλονται σε επεξεργασία για να φτάσουν σε μια χρησιμοποιήσιμη μορφή για αναφορές BI. Οι πρακτικές ακεραιότητας δεδομένων διασφαλίζουν ότι αυτές οι πληροφορίες DWH/BI είναι καταλογίσιμες και ακριβείς.
- Τα δεδομένα μπορούν εύκολα να τεθούν σε κίνδυνο εάν δεν ληφθούν τα κατάλληλα μέτρα για την επαλήθευσή τους καθώς μετακινούνται από κάθε περιβάλλον για να γίνουν διαθέσιμα σε έργα DWH/BI. Τα σφάλματα με την ακεραιότητα των δεδομένων συνήθως προκύπτουν από ανθρώπινα λάθη, μη συμμορφούμενες διαδικασίες λειτουργίας, μεταφορές δεδομένων, ελαττώματα λογισμικού και παραβιασμένο υλικό.
- Εφαρμόζοντας τις στρατηγικές που εισάγονται σε αυτό το ιστολόγιο, οι οργανισμοί θα πρέπει να είναι σε θέση να βελτιώσουν την ποιότητα και να μειώσουν το χρόνο και το κόστος κατά την ανάπτυξη ενός έργου DWH/BI.