Dữ liệu chưa được làm sạch có thể dẫn đến sự sai sót trong bản báo cáo cuối cùng. Để có thể thực hiện thành công làm sạch và biến đổi dữ liệu, việc đầu tiên mà bạn cần làm là cấu trúc lại bảng của mình, bao gồm tên cột và dữ liệu trong từng cột. Và trong Power BI, để biến đổi dữ liệu, chúng ta sử dụng Power Query Editor. Trong bài viết hôm nay, mình sẽ cung cấp cho các bạn đầy đủ từ A-Z về định dạng cấu trúc bảng trong Power Query Editor.
Các nội dung chính
Xác định tiêu đề cột và tên cột
Bắt đầu với Power Query Editor
Để bắt đầu định dạng dữ liệu của bạn, hãy mở Power Query Editor bằng cách chọn tùy chọn Transform data trên tab Home của Power BI Desktop.

Trong Power Query Editor, dữ liệu bạn đã chọn của hiển thị ở giữa màn hình và ở phía bên trái, phần Queries liệt kê các truy vấn có sẵn (hoặc các bảng).
Khi bạn làm việc trong Power Query Editor, tất cả các bước bạn thực hiện để định dạng dữ liệu của mình đều được ghi lại. Sau đó, khi truy vấn kết nối với nguồn dữ liệu, nó sẽ tự động áp dụng các bước bạn làm, do đó, dữ liệu của bạn luôn được định dạng theo cách bạn đã chỉ định. Bạn có thể xem danh sách các bước mình làm ở bên phải màn hình, trong phần Query Settings, cùng với các thuộc tính của truy vấn.
Thanh công cụ Power Query Editor chứa nhiều nút mà bạn có thể sử dụng để chọn, xem và định dạng dữ liệu của mình.
Để tìm hiểu thêm về các tính năng và chức năng có sẵn, hãy xem Thanh query.
LƯU Ý: Trong Power Query Editor, việc bấm chuột phải để xem menu context cung cấp nhiều tùy chọn giống với việc bấm vào tab Transform trong thanh công cụ
Xác định tiêu đề cột (header) và tên cột (column name)
Bước đầu tiên trong việc định dạng dữ liệu ban đầu của bạn là xác định các tiêu đề cột và tên trong dữ liệu, sau đó đánh giá để đảm bảo rằng chúng ở đúng vị trí.
Trong ảnh chụp màn hình sau, ta muốn dữ liệu trong tệp SalesTarget.csv được phân loại theo product và product subcategory, chia theo tháng, cả hai đều được tổ chức thành các cột.

Tuy nhiên, bạn nhận thấy rằng dữ liệu đang không được import như mong đợi.
Do đó, dữ liệu rất khó đọc. Đã xảy ra sự cố với dữ liệu hiện tại vì tiêu đề cột nằm trong các hàng khác nhau (được đánh dấu màu đỏ) và một số cột có tên không có mô tả, chẳng hạn như Column1, Column2,…
Khi bạn đã xác định được vị trí của tiêu đề cột và tên cột, bạn có thể thực hiện các thay đổi để tổ chức lại dữ liệu.

Định dạng cấu trúc bảng
Tăng cấp hàng thành tiêu đề cột
Khi một bảng được tạo trong Power BI Desktop, Power Query Editor giả định rằng tất cả dữ liệu đều thuộc về các hàng của bảng. Tuy nhiên, dữ liệu nguồn có thể có hàng đầu tiên chứa tên cột, đây là điều đã xảy ra trong ví dụ SalesTarget trước đó. Để khắc phục điều này, bạn cần tăng cấp (promote) hàng đầu tiên của bảng thành tiêu đề cột.
Bạn có thể tăng cấp hàng thành tiêu đề theo hai cách: bằng cách chọn tùy chọn Use First Row as Headers trên tab Home hoặc bằng cách chọn nút thả xuống bên cạnh Column1 và sau đó chọn Use First Row as Headers.

Các hình ảnh sau minh họa cách tính năng Use First Row as Headers ảnh hưởng đến dữ liệu:

Đổi tên các cột
Bước tiếp theo trong việc định hình dữ liệu của bạn là kiểm tra các tiêu đề cột. Trong quá trình thực hiện, bạn có thể phát hiện ra rằng một hoặc nhiều cột có tiêu đề sai, tiêu đề có lỗi chính tả hoặc quy ước đặt tên tiêu đề không nhất quán hoặc không thân thiện với người dùng.
Tham khảo ảnh chụp màn hình trước đó, cho thấy tác động của tính năng Use First Row as Headers. Lưu ý rằng cột chứa dữ liệu Name là tên các products hiện đang để tiêu đề cột là Month. Tiêu đề cột này không chính xác, vì vậy nó cần được đổi tên.
Bạn có thể đổi tên tiêu đề cột theo hai cách. Một là bấm chuột phải vào tiêu đề, chọn Rename, chỉnh sửa tên, rồi nhấn Enter. Cách khác, bạn có thể bấm đúp vào tiêu đề cột và ghi đè tên bằng tên chính xác.
Bạn cũng có thể khắc phục sự cố này bằng cách loại bỏ hai hàng đầu tiên và sau đó đổi tên các cột thành tên chính xác.
Xóa các hàng trên cùng
Khi định dạng dữ liệu của mình, bạn có thể cần phải xóa một số hàng trên cùng, chẳng hạn như nếu chúng trống hoặc nếu chúng chứa dữ liệu mà bạn không cần trong báo cáo của mình.
Tiếp tục với ví dụ SalesTarget, hãy lưu ý rằng hàng đầu tiên trống (nó không có dữ liệu) và hàng thứ hai có dữ liệu thừa không cần thiết.

Để loại bỏ những hàng thừa này, hãy chọn Remove Rows > Remove Top Rows trên tab Home.

Loại bỏ các cột
Bước quan trọng trong quá trình định hình dữ liệu là loại bỏ các cột không cần thiết. Tốt hơn hết là loại bỏ các cột càng sớm càng tốt. Một cách để xóa cột là giới hạn cột cần lấy khi bạn lấy dữ liệu từ dữ liệu nguồn. Ví dụ: nếu bạn đang trích xuất dữ liệu từ cơ sở dữ liệu quan hệ bằng cách sử dụng SQL, bạn sẽ muốn giới hạn cột mà bạn trích xuất bằng cách sử dụng danh sách cột trong câu lệnh SELECT.
Tốt nhất là loại bỏ các cột ở giai đoạn đầu của quy trình, đặc biệt là khi bạn đã thiết lập relationship giữa các bảng. Loại bỏ các cột không cần thiết sẽ giúp bạn tập trung vào dữ liệu bạn cần và giúp cải thiện hiệu suất tổng thể của dataset và báo cáo Power BI Desktop.
Kiểm tra từng cột và xem xét chúng có thực sự chứa dữ liệu mà mà bạn cần hay không. Nếu bạn không có kế hoạch sử dụng dữ liệu đó trong báo cáo, cột này sẽ không có giá trị gì cho mô hình dữ liệu của bạn. Do đó, cột nên được loại bỏ. Bạn luôn có thể thêm cột sau, nếu yêu cầu của bạn thay đổi theo thời gian.
Bạn có thể loại bỏ các cột theo hai cách. Phương pháp đầu tiên là chọn các cột mà bạn muốn loại bỏ, sau đó, trên tab Home, hãy chọn Remove Columns.


Một cách khác, bạn có thể chọn các cột mà bạn muốn giữ lại, sau đó, trên tab Home, hãy chọn Remove Columns > Remove Other Columns.

Vậy là chúng ta đã vừa đi qua những thông tin quan trọng về phần định dạng cấu trúc bảng trong Power BI. Mình hy vọng rằng ngay sau khi đọc xong bài viết này, các bạn có thể ứng dụng luôn, từ đó giúp ích rất nhiều cho quá trình làm sạch dữ liệu. Ngoài ra, các bạn còn có thể tham khảo thêm khóa học của DataPot tại đây.