Nhiều người trong chúng ta tương tác với dữ liệu như một phần của công việc hàng ngày. Giả sử nếu bạn là một nhân viên đại học, bạn sẽ cần xử lý dữ liệu mỗi ngày. Cho dù bạn là Quản trị viên hay nhân viên được phân loại, giảng viên, nhân viên bảo mật và giám sát, nhân viên làm công ăn lương không thường xuyên hay thậm chí là sinh viên vừa học vừa làm, việc xử lý dữ liệu chắc chắn sẽ là một phần trong cuộc sống của bạn. Đây chỉ là một ví dụ nhưng quản lý dữ liệu là một phần quan trọng trong cuộc sống hàng ngày của chúng ta bất kể chúng ta làm nghề gì. Trong bài viết này, chúng ta sẽ thảo luận về quản lý dữ liệu là gì và tại sao nó lại quan trọng.

What is Data Management?

Định nghĩa chính thức về quản lý dữ liệu xuất phát từ Data Management Association International, Mà nói rằng Data management refers to the development and execution of architectures, policies, practices, and procedures, in order to manage the information cycle of an enterprise in an effective manner. Nghe có vẻ hơi mơ hồ và phức tạp để hiểu. Nói chính xác hơn, chúng ta có thể suy luận rằng, Quản lý dữ liệu chỉ đơn giản là management of information. Trên thực tế, dữ liệu là thông tin, trong nhiều hiện thân. For example, một số loại dữ liệu mà trường đại học thường làm việc là hồ sơ sinh viên và nhân viên, chẳng hạn như thông tin đăng ký và ghi danh, điểm, địa chỉ, tên pháp lý, bảng lương và tài liệu thuế, thông tin liên hệ khẩn cấp, v.v. Bạn có thể không nhận ra tần suất bạn tương tác với dữ liệu trong khi làm việc và đó là lý do tại sao quản lý dữ liệu lại quan trọng như vậy. Có nghĩa là thông tin chúng tôi làm việc phải accurate, consistent, and secure.

  • Accurate có nghĩa là dữ liệu là chính xác.
  • Consistent có nghĩa là dữ liệu có thể tương tác giữa các luồng giữa các hệ thống và các phòng ban mà không gặp bất kỳ vấn đề gì.
  • Secure có nghĩa là dữ liệu được an toàn, cả khỏi mục đích xấu và đôi khi không thể tránh khỏi lỗi của con người.

Dữ liệu tốt hơn dẫn đến việc ra quyết định tốt hơn, tăng cường nỗ lực lập kế hoạch và đánh giá, tăng cường hiểu biết của sinh viên và nhân viên (trong trường hợp là trường đại học), cho phép tham gia thành công vào các nỗ lực của tiểu bang và liên bang, tăng cường trách nhiệm giải trình và giảm rủi ro cho tổ chức từ yếu ra quyết định và báo cáo không chính xác.

10 sai lầm hàng đầu mà chúng ta thường mắc phải khi quản lý dữ liệu:

Hãy xem lại mười lỗi quản lý dữ liệu mà chúng ta thường thấy:

  1. Flaky Data Management Plan: Nếu không có chiến lược nào để quản lý dữ liệu của bạn thì bạn về cơ bản là một con tàu không có bánh lái. Cần phải có một kế hoạch để quản lý chuyển động, vòng đời, bảo mật, tính khả dụng và chất lượng dữ liệu của bạn.
  2. Tools are used in place of the Data Management Plan:
  • Thật không may, chúng tôi thấy điều này xảy ra rất nhiều. Công cụ quản lý dữ liệu chỉ có vậy, Công cụ. Nếu bạn không có sẵn một kế hoạch dài hạn, bạn sẽ sử dụng không đầy đủ hoặc sử dụng quá mức các công cụ của mình.
  • Ví dụ, bạn có thể nhớ lại ví dụ về Maslow’s Hammer. Nếu tất cả những gì bạn có là một cái búa, thì mọi thứ sẽ giống như một cái đinh.
  • Có thời gian và địa điểm cho mọi công cụ và đó là một phần của Kế hoạch quản lý dữ liệu vạch ra. Một ví dụ về điều này là công cụ ETL của bạn. ETL viết tắt của Extract, Transform, Load, ba quá trình kết hợp di chuyển dữ liệu từ một cơ sở dữ liệu, nhiều cơ sở dữ liệu hoặc các nguồn khác đến một kho lưu trữ thống nhất — thường là một kho dữ liệu. Việc sử dụng công cụ ETL để thực hiện Điều phối và Lập lịch là có thể, nhưng nó có lý tưởng không?
  1. Lack of Meta Data Management:

Với bất kỳ giải pháp tích hợp dữ liệu được triển khai nào, bạn sẽ có dữ liệu di chuyển khắp nơi. Nhưng bạn có thể xác định, nó đang diễn ra ở đâu, nó đến đó bằng cách nào hoặc nó đã trải qua bao nhiêu lần chuyển đổi? Bạn đang tự đùa mình nếu bạn đang nghĩ rằng bạn sẽ không phải trả lời những câu hỏi này nhiều lần. Bạn cần cả hai, lập kế hoạch và các công cụ cần thiết để giải quyết thách thức này.

  1. Master Data is not Mastered (lives in applications, ETL, etc.):

Nếu bạn thực hiện một cuộc tìm kiếm toàn diện cho một trong những khách hàng trên tất cả các hệ thống của mình, bạn có thể sẽ tìm thấy một số phiên bản của khách hàng đó. Do đó, thật khó để xác định cái nào là đúng? Thông tin khách hàng đó cần được lưu trữ và quản lý tập trung. Và một kế hoạch cần được đưa ra cùng với doanh nghiệp để thực hiện điều đó.

Hãy để chúng tôi đào sâu một chút để hiểu những gì Master Data v/s Transaction Data Là?

  • Dữ liệu chính đại diện cho những người, địa điểm hoặc những thứ mà một tổ chức quan tâm. Giả sử bạn là khách hàng mua một ít pho mát từ bất kỳ cửa hàng nào. Vì vậy, trong trường hợp này, dữ liệu chính sẽ là bạn, khách hàng, sản phẩm pho mát, nhân viên và cửa hàng. Mặt khác, Dữ liệu giao dịch là một sự kiện mà Dữ liệu chính tham gia, trong trường hợp này, nó sẽ là việc mua pho mát. Vì vậy, một số ví dụ sẽ là giá, chiết khấu hoặc phiếu giảm giá và phương thức thanh toán.
  • Vì vậy, bạn gần như có thể so sánh Dữ liệu chính với Danh từ và Dữ liệu giao dịch với Động từ khi một mô tả một người, địa điểm hoặc sự vật, và dữ liệu kia mô tả một hành động hoặc sự kiện mà những danh từ đó tham gia vào.
  • Một cách khác để giải mã dữ liệu chính từ dữ liệu giao dịch là tần suất thay đổi của dữ liệu đó. Dữ liệu chính như bạn, khách hàng, phải nhất quán cho dù bạn đang thanh toán tại trang web của công ty hay thanh toán tại quầy thu ngân. Bạn là bạn cho dù công ty tương tác với bạn ở đâu. Không giống như dữ liệu giao dịch luôn thay đổi mỗi khi bạn mua thứ gì đó từ cửa hàng. Một ngày bạn có thể tiêu 10 Rupee, ngày hôm sau có thể lên tới 100 Rupee. Phép đo này được gọi là Volatility. Nếu dữ liệu có nhiều biến động thì rất có thể đó là dữ liệu giao dịch.
  • Cách chúng tôi quản lý dữ liệu Master v / s Dữ liệu giao dịch rất quan trọng vì cả hai đều có những thách thức rất riêng. Dữ liệu chính bị thách thức bởi các vấn đề nhất quán. Ví dụ: bạn có thể sử dụng thẻ khách hàng thân thiết của mình khi thanh toán tại quầy thu ngân, nhưng khi mua hàng trực tuyến thì không. Điều này tạo ra hai hồ sơ khách hàng, mặc dù đó là cùng một người. Điều này cũng khiến nhà bán lẻ khó đánh giá bạn là khách hàng và nó làm tăng số lượng khách hàng mà nhà bán lẻ nghĩ rằng họ có.
  • Dữ liệu giao dịch bị thách thức bởi số lượng dữ liệu và cách phân cấp mà các phòng ban tổng hợp. Ví dụ: chỉ cần tưởng tượng có bao nhiêu dữ liệu được thu thập chỉ trong một ngày tại bất kỳ cửa hàng tạp hóa địa phương nào. Số lượng dữ liệu có thể đáng kinh ngạc, nhưng mọi người đều muốn có dữ liệu đó vì nó đại diện cho một bức ảnh chụp nhanh về cách tổ chức và các bộ phận của nó đang hoạt động. Do đó, nhiều phòng ban có thể có cách tổng hợp dữ liệu đó, điều này tạo ra sự mâu thuẫn trong logic, cuối cùng dẫn đến các quyết định tồi tệ và bế tắc.
  1. Data Quality is believed to be an IT function:

Đây có lẽ là một trong những vấn đề thách thức nhất mà các nhóm CNTT phải đối phó. Nhận thức rằng Dữ liệu là một vấn đề CNTT, có thể cản trở tổ chức đạt được bất kỳ tiến bộ nào trong việc khắc phục các thách thức về chất lượng dữ liệu. Vì CNTT không tạo ra dữ liệu nên họ gần như không thể xác định được dữ liệu đó có chính xác hay không, doanh nghiệp phải vào cuộc.

  1. Data Warehouse does not equal to Big Database:

Chúng tôi nhận thấy cả các tổ chức lớn và nhỏ đều rơi vào bẫy khi giả định rằng kho dữ liệu là bãi rác cho các bảng báo cáo. Có rất nhiều cơ hội đang bị bỏ lại với tâm lý này. Một câu hỏi nổi bật được đặt ra là, làm thế nào để bạn biết liệu bạn có một Kho dữ liệu thực sự hay không? Chúng ta hãy thử tìm câu trả lời qua một vài mẩu truyện ngắn:

  • Câu chuyện đầu tiên là về một nhà phát triển báo cáo đã chán với việc phải lấy dữ liệu từ nhiều vị trí để lấy thông tin cho doanh nghiệp. Để khắc phục điều này, tổ chức tạo một cơ sở dữ liệu nơi tất cả các bảng cần thiết cho báo cáo có thể được tìm thấy ở một nơi và cơ sở dữ liệu mới này được cập nhật thường xuyên với dữ liệu mới nhất thông qua các lần làm mới theo lịch trình. Và ở đâu đó, bãi rác này của các bảng báo cáo được chính thức gọi là Kho dữ liệu.
  • Câu chuyện thứ hai là về một DBA (Quản trị cơ sở dữ liệu) sắc sảo và rất giỏi trong việc tạo ra các khung nhìn. Bạn có thể coi dạng xem như một tập dữ liệu được cơ sở dữ liệu xử lý nhanh từ nhiều bảng. Các chế độ xem này là thứ cung cấp dữ liệu cho các báo cáo. Và tất cả logic cho các khung nhìn đó nằm trong mã mà chỉ DBA mới hiểu được. Ở đâu đó dưới dòng, nhóm bảng được tính toán nhanh này được coi là Kho dữ liệu.
  • Cả hai ví dụ này đều không đại diện cho một Kho dữ liệu thực. Tuy nhiên, trong cả hai ví dụ này, chúng tôi thấy các yêu cầu quan trọng được đáp ứng. Trong ví dụ đầu tiên, chúng ta thấy tầm quan trọng của dữ liệu nằm ở một vị trí duy nhất để đơn giản hóa việc truy cập vào các bảng. Trong ví dụ thứ hai, chúng ta thấy tầm quan trọng của việc đơn giản hóa logic truy vấn để người viết báo cáo có thể tập trung vào việc xây dựng nội dung.
  • Trong một Kho dữ liệu thực, những phẩm chất tốt nhất của hai kịch bản này được thực hiện, bằng cách tập trung dữ liệu về mặt vật lý và đơn giản hóa logic cho việc sử dụng nó. Chìa khóa thành công của kho dữ liệu là các bên liên quan trong kinh doanh chứ không phải các công cụ hoặc kỹ thuật.
  • Xây dựng Kho dữ liệu giống như bóc một củ hành tây, nếu bạn không bắt đầu với lớp đầu tiên, bạn có khả năng bỏ lỡ bức tranh lớn. Sự cám dỗ để đi sâu vào dữ liệu chi tiết và ghép lại những gì doanh nghiệp cần cuối cùng sẽ khiến bạn mất thời gian và làm lại. Có 8 lớp hành tây Kho Dữ liệu cần được bóc tách để triển khai thành công. Một khi các lớp này được chinh phục, tổ chức sẽ có một mô hình hay đúng hơn là một chương trình để thu thập dữ liệu thô và biến nó thành một tài sản ra quyết định được chia sẻ.

Vậy đâu là những dấu hiệu nhận biết bạn chưa có Kho dữ liệu thực?

  1. Data Disparity: Thu thập dữ liệu của bạn liên quan đến việc tìm kiếm nhiều cơ sở dữ liệu.
  2. Views Everywhere: Việc thu thập dữ liệu của bạn có thể phụ thuộc rất nhiều vào các chế độ xem cơ sở dữ liệu.
  3. IT Owned: Kho dữ liệu được tạo ra như một dự án CNTT và không yêu cầu các Bên liên quan đến Kinh doanh chú ý.
  4. Wanting a new Business Intelligence tool: Bạn đang muốn thay thế công cụ BI của mình vì bạn không nhận được dữ liệu mình cần.
  5. Tribal knowledge: Tất cả logic để thu thập dữ liệu nằm trong đầu các nhà phát triển báo cáo của bạn.
  6. Shadow IT: Các nhà phân tích kinh doanh đang độc lập tạo ra môi trường phân tích của họ để lấy thông tin ra khỏi dữ liệu.
  7. Multiple Truths: Các cuộc họp quản lý chủ yếu về dữ liệu của ai là đúng hơn là khoảng cách hiệu suất thực tế.
  8. Heavy BI query logic
  9. Excel-based integration: Các nhà phân tích phải sử dụng bảng tính với hàng chục tab để dữ liệu hiển thị đúng.
  10. Resource intensive: Báo cáo quản lý hoặc trang tổng quan có vẻ đơn giản nhưng về mặt cơ bản, chúng yêu cầu một nhóm lớn tài nguyên thực hiện công việc tích hợp dữ liệu lặp đi lặp lại.
  1. Business Intelligence and Data Warehousing are separated by a management wall:

Chúng tôi thấy điều này thường xảy ra trong các tổ chức lớn, nơi nhu cầu chèn các kiểm soát quy trình bắt đầu làm xói mòn sự nhanh nhạy của Business Intelligence. Nhóm Kho dữ liệu và BI cần có sự gắn kết nhiều nhất có thể để đảm bảo rằng các yêu cầu dữ liệu chiến thuật và chiến lược đều được xử lý một cách thích hợp.

  1. Self Service Business Intelligence= Lack of Understanding/ Responsibility:

 Với nhiều công cụ trên thị trường hiện nay, người dùng doanh nghiệp có thể nhập bảng tính excel và thực hiện phân tích một cách đơn giản. Đây là một điều tốt vì nó cho phép các câu hỏi rất chiến thuật được hỏi và trả lời. Tuy nhiên, điều này cũng có thể tạo ra một môi trường không có dữ liệu được chia sẻ hoặc bị quản lý cho tổ chức lớn hơn. Thông thường, kết quả là cả CNTT và Doanh nghiệp đều không nắm quyền sở hữu đối với các sáng kiến ​​tích hợp dữ liệu chiến lược cần thiết để cung cấp thông tin cho nhiều đối tượng hơn.

  1. Big Data is the new panacea- It’s not:

 Nếu bạn từng có cơ hội theo dõi ngành kinh doanh thông minh thì bạn có thể biết rằng nó được thống trị bởi từ thông dụng. Dữ liệu lớn là từ thông dụng mới mà mọi nhà cung cấp công nghệ đang sử dụng để mô tả các tính năng sản phẩm của họ. Mặc dù có một số đổi mới rất hợp lệ như Hadoop và các dịch vụ dựa trên Đám mây, nhưng thông điệp phần lớn là một góc nhìn mới về các phương pháp luận hiện có. Vẫn chưa có giải pháp chống bụi Pixie nào.

  1. Assuming goodwill with the security of your data:

 Bạn có thể có tường lửa để ngăn người ngoài truy cập vào dữ liệu nhạy cảm của bạn nhưng trong bốn bức tường của chính công ty bạn thì sao? Người ta ước tính rằng 88% tất cả các vụ vi phạm dữ liệu liên quan đến sơ suất của nội bộ.

Đây chỉ là một vài trong số những thách thức phổ biến mà chúng tôi thấy các tổ chức đang đối phó và chúng là một phần của nghiên cứu lớn hơn về các chủ đề được giải quyết trong quá trình kiểm tra Tình trạng quản lý dữ liệu. Các cuộc kiểm tra sức khỏe này giúp mọi người đánh giá cách họ đạt điểm trong Bối cảnh công nghệ, Sử dụng dữ liệu, Quản trị doanh nghiệp và Văn hóa kinh doanh của họ.