Trong bài viết hôm nay, mình sẽ giới thiệu cho các bạn một tính năng rất hay của Power BI: Data Profile.
Mô tả dữ liệu (data profile) là nghiên cứu các trạng thái của dữ liệu: xác định sự bất thường, kiểm tra và phát triển cấu trúc dữ liệu cơ bản, truy vấn thống kê dữ liệu như số lượng hàng, cách phân phối giá trị, giá trị tối thiểu và tối đa, giá trị trung bình, v.v. Khái niệm này quan trọng vì nó cho phép bạn định dạng và tổ chức dữ liệu sao cho việc tương tác với dữ liệu và phân phối dữ liệu không phức tạp, từ đó giúp bạn làm việc với dữ liệu trên giao diện người dùng để tạo ra các báo cáo gần nhất với mong đợi.
Giả sử rằng bạn đang phát triển các báo cáo cho nhóm Sales tại doanh nghiệp của bạn. Bạn không chắc dữ liệu được cấu trúc và lưu trữ trong các bảng như thế nào, vì vậy bạn muốn mô tả dữ liệu trước khi bắt đầu tạo các visualization. Power BI có chức năng có sẵn giúp cho các tác vụ này trở nên thân thiện và đơn giản với người dùng.
Kiểm tra cấu trúc dữ liệu
Trước khi bắt đầu kiểm tra dữ liệu trong Power Query Editor, bạn nên tìm hiểu về cấu trúc dữ liệu cơ bản mà dữ liệu được tổ chức. Bạn có thể xem mô hình dữ liệu hiện tại trong tab Model trên Power BI Desktop.

Trên tab Model, bạn có thể chỉnh sửa các thuộc tính cột và bảng cụ thể bằng cách chọn một bảng hoặc các cột và bạn có thể chuyển đổi dữ liệu bằng cách sử dụng nút Transform Data, nút này sẽ đưa bạn đến Power Query Editor. Ngoài ra, bạn có thể quản lý, tạo, chỉnh sửa và xóa mối quan hệ giữa các bảng khác nhau bằng cách sử dụng Manage Relationships, nằm trên thanh công cụ.
Mô tả dữ liệu trong Power Query Editor
Sau khi bạn đã tạo kết nối với nguồn dữ liệu và đã chọn Transform Data, bạn sẽ được đưa đến Power Query Editor, nơi bạn có thể xác định xem có tồn tại điều gì bất thường trong dữ liệu của mình hay không. Dữ liệu bất thường là những điểm dị biệt trong dữ liệu của bạn. Việc xác định những điểm bất thường đó có thể giúp bạn xác định phân phối chuẩn của dữ liệu trông như thế nào và có các điểm dữ liệu cụ thể bạn cần kiểm tra thêm hay không. Power Query Editor xác định sự bất thường của dữ liệu bằng cách sử dụng tính năng Column Distribution.
Chọn View trên thanh công cụ và trong Data Preview, bạn có thể chọn trong số một số tùy chọn. Để hiểu các bất thường về dữ liệu và thống kê, hãy chọn các tùy chọn Column Distribution, Column Quality, và Column Profile. Hình sau đây cho thấy các số liệu thống kê xuất hiện.
Column quality và Column distribution được hiển thị trong biểu đồ phía trên các cột dữ liệu. Column quality hiển thị phần trăm dữ liệu hợp lệ, bị lỗi và trống. Thường bạn sẽ muốn 100% dữ liệu phải hợp lệ.

Column distribution hiển thị phân phối dữ liệu trong cột và đếm số các giá trị riêng biệt (distinct) và duy nhất (unique), cho bạn biết chi tiết về số lượng dữ liệu. Các giá trị distinct là tất cả các giá trị trong một cột, bao gồm các giá trị trùng lặp và giá trị null, trong khi các giá trị unique không bao gồm các giá trị trùng lặp hoặc giá trị null. Do đó, giá trị distinct trong bảng này cho bạn biết tổng số giá trị hiện có, trong khi giá trị unique cho bạn biết có bao nhiêu giá trị trong số đó không trùng lặp hoặc null.
Column profile cung cấp cho bạn cái nhìn sâu hơn về các thống kê trong cột. Cột này cung cấp một số giá trị khác nhau, bao gồm cả số hàng, điều này rất quan trọng khi xác minh xem việc import dữ liệu của bạn có thành công hay không. Ví dụ: nếu cơ sở dữ liệu ban đầu của bạn có 100 hàng, số hàng này sẽ giúp bạn xác minh rằng dữ liệu đã được nhập chính xác. Ngoài ra, số hàng này sẽ hiển thị số hàng mà Power BI đã coi là bất thường(và do đó là “lỗi”), các hàng và chuỗi trống, cũng như giá trị tối thiểu và tối đa, sẽ cho bạn biết giá trị nhỏ nhất và lớn nhất trong một cột. Sự khác biệt này đặc biệt quan trọng trong trường hợp kiểu dữ liệu số vì nó sẽ thông báo ngay cho bạn nếu bạn có giá trị tối đa vượt quá giá trị mà doanh nghiệp của bạn xác định là “tối đa”. Bạn cần chú ý hơn đến những giá trị này, sau đó tập trung vào nó khi nghiên cứu sâu hơn về dữ liệu. Trong trường hợp dữ liệu nằm trong cột văn bản, như đã thấy trong hình trước, giá trị nhỏ nhất là giá trị đầu tiên và giá trị lớn nhất là giá trị cuối cùng theo thứ tự bảng chữ cái.
Ngoài ra, biểu đồ Value distribution cho bạn biết số lượng cho mỗi giá trị unique trong cột cụ thể đó. Khi nhìn vào biểu đồ trong hình trước, Value distribution cho biết rằng “Anthony Grosse” xuất hiện với số lần lớn nhất trong cột Người bán hàng Salesperson và “Lily Code” xuất hiện với số lần ít nhất. Thông tin này đặc biệt quan trọng vì nó xác định các bất thường. Nếu một giá trị xuất hiện nhiều hơn các giá trị khác trong một cột, thì tính năng Value disstribution cho phép bạn xác định điểm để bắt đầu tìm hiểu lý do cho sự khác biệt đó.
Trên một cột dữ liệu số, Column Statistics cũng sẽ bao gồm số lượng giá trị 0 và null, cùng với giá trị trung bình trong cột, độ lệch chuẩn của các giá trị trong cột và số giá trị chẵn, lẻ có trong cột. Những thống kê này cung cấp cho bạn ý tưởng về sự phân bố dữ liệu trong cột, tóm tắt dữ liệu trong cột và đóng vai trò là điểm khởi đầu để xác định những giá trị bất thường là gì.
Ví dụ: trong khi xem qua dữ liệu về hóa đơn, bạn nhận thấy rằng biểu đồ Value distribution cho thấy rằng một số nhân viên bán hàng trong cột SalesPerson xuất hiện với số lần giống nhau trong dữ liệu. Ngoài ra, có thể thấy tình huống tương tự đã xảy ra trong cột Profit và trong một số bảng khác. Trong quá trình điều tra, bạn phát hiện ra rằng dữ liệu bạn đang sử dụng là dữ liệu xấu và cần được refresh. Nếu không xem biểu đồ này, bạn có thể đã không thấy lỗi này nhanh như vậy và vì lý do này, chức năng value distribution là cần thiết.
Sau khi bạn đã hoàn thành các chỉnh sửa của mình trong Power Query Editor và sẵn sàng tạo các visual, hãy quay lại Home trên Power Query Editor. Chọn Close & Apply, thao tác này sẽ đưa bạn trở lại Power BI Desktop và mọi chỉnh sửa / biến đổi cột cũng sẽ được áp dụng.
Bây giờ, bạn đã xác định các phần về mô tả dữ liệu trong Power BI, bao gồm tải dữ liệu trong Power BI, xem xét các thuộc tính cột để hiểu rõ và thực hiện các chỉnh sửa thêm đối với loại và định dạng dữ liệu trong cột, tìm kiếm sự bất thường của dữ liệu và xem thống kê dữ liệu trong Power Query Editor. Với kiến thức này, bạn sẽ có khả năng nghiên cứu dữ liệu một cách hiệu quả. Các bạn có thể tham khảo thêm về kháo học của Datapot tại đây nhé.