Trong quá trình phân tích dữ liệu, bạn sẽ thường nảy sinh nhu cầu chia nhóm dữ liệu để phân tích. Ở mức độ đơn giản nhất, chúng ta sẽ chia dữ liệu theo các trường (dimension) có sẵn, như quốc gia, ngày tháng. Thông thường, Power BI Desktop sẽ tự động tổng hợp dữ liệu thành cách nhóm khác nhau, tuy nhiên, trong một số trường hợp bạn muốn chia nhóm khác đi, hoặc chia nhóm tùy chỉnh theo ý bạn để thực hiện phân tích. Trong trường hợp đó, chúng ta sẽ cần phải sử dụng đến các kỹ thuật chia nhóm dữ liệu trong Power BI: grouping, binning và clustering. Mình sẽ chia sẻ với các bạn về các kỹ thuật này ngay sau đây.
Các nội dung chính
Grouping và Binning
Khi bạn tạo các biểu đồ, PBI Desktop sẽ tổng hợp lại data thành các nhóm khác nhau. Bạn có thể tự điều chỉnh cách chia nhóm mặc định của PBI. Bạn cũng có thể tạo ra các nhóm mới bằng cách nhóm hai hay nhiều điểm dữ liệu vào một biểu đồ, hoặc nhóm thành các nhóm có kích cỡ bằng nhau (binning).
Grouping được sử dụng cho việc phân nhóm dữ liệu. Binning tương tự với grouping nhưng nó được sử dụng để nhóm các trường liên tục, chẳng hạn như số và ngày tháng (giải thích một cách dễ hiểu hơn: bạn có thể sử dụng binning để chia các ngày của bạn thành các tuần – mỗi tuần là một bin gồm 7 ngày).
Bạn có thể sử dụng các tính năng grouping và binning để đảm bảo các biểu đồ được tạo thể hiện dữ liệu theo đúng ý mình, để bạn có thể xem xét, phân tích kỹ hơn. Bạn sẽ có thể xác định các cụm, mô hình hành vi, trung bình dữ liệu v..v…. Kết quả của việc phân tích này sẽ mang đến cho các end-users những hiểu biết cụ thể hơn về dữ liệu của họ, từ đó hỗ trợ việc đưa ra các quyết định kinh doanh.
Trong ví dụ này, team Customer Service muốn bạn phân tích thêm về Help ticket – họ mong muốn phân nhóm dữ liệu thành các nhóm khác nhau, cụ thể, họ muốn xác định các thành phố có doanh số bán hàng cao nhất.
Tạo một group
Trong hình dưới, bạn sẽ thấy biểu đồ cột ngang mà trong đó Power BI đã tự động phân nhóm dữ liệu theo cách mà nó thấy hữu ích nhất – Total Sales by City. Tuy nhiên, bạn muốn nhóm một số cột (thành phố) lại với nhau để xem xét chung với nhau, để giúp team Sales xác định các thành phố có doanh số cao nhất.
Để tạo nhóm, bạn giữ Ctrl+click chọn các điểm dữ liệu trên biểu đồ mà bạn muốn nhóm, trong trường hợp này là các thành phố có doanh số lớn hơn 500 nghìn USD. Sau đó, bạn bấm chuột phải vào một trong những điểm dữ liệu đã chọn đó và chọn Group data.

Sau khi tạo nhóm, biểu đồ của bạn sẽ cập nhật các nhóm mới. Trong hình dưới đây, bạn sẽ thấy các thành phố khác (thành phố có doanh số dưới 500 nghìn USD) đã được nhóm lại với nhau và được tô màu khác hẳn.

Bạn sẽ thấy trường nhóm mới hiển thị trong Legend và được liệt kê trong ngăn Fields.
Khi bạn tạo ra một group, bạn có thể thay đổi cách dữ liệu được hiển thị trên biểu đồ. Bạn cũng có thể sử dụng group trong bất kỳ biểu đồ nào khác trong báo cáo của bạn. Bạn chỉ cần kéo trường đó vào ngăn Field, sau đó thả vào biểu đồ mà bạn muốn sử dụng.
Chỉnh sửa group
Tiếp tục ví dụ trên, bây giờ bạn muốn chỉnh sửa các danh mục tạo nhóm theo ý bạn. Bấm chuột phải vào trường group ở phần Legend hoặc ngăn Fields rồi chọn Edit Groups.
Trong cửa sổ Groups, bạn có thể xem danh sách các nhóm và các mục khác nhau thuộc các nhóm đó. Trong hình sau, bạn sẽ thấy Cities with Sales > 500k group và các phần tử của nó, cùng với Other group (Cities with Sales < 500k) chứa tất cả các giá trị khác chưa được đưa vào nhóm đầu tiên. Nếu bạn refresh data, các item chưa được phân nhóm sẽ được đưa vào nhóm Other.

Bây giờ bạn có thể thực hiện các thay đổi đối với nhóm. Bạn có thể đổi tên bất kỳ nhóm nào bằng cách bấm đúp vào tiêu đề nhóm trong phần Groups and members và nhập một cái tên mới. Bạn có thể thêm các giá trị chưa được phân nhóm vào các nhóm đã có, xóa giá trị khỏi nhóm hiện có và thậm chí tạo nhóm mới.
Tạo bin group
Quá trình binning cho phép bạn nhóm các trường số và thời gian vào các “bins” có kích cỡ giống nhau, để bạn có thể hình dung và xác định xu hướng trong dữ liệu của mình rõ hơn. Binning cho phép bạn chỉnh sửa kích cỡ trong data mà Power BI Desktop thể hiện.
Trong ví dụ này, Bạn muốn tạo bins (groups) cho trường Order Qty. Bạn bắt đầu từ ngăn Fields, bấm chuột phải vào trường Order Qty mà bạn muốn tạo bins, sau đó chọn New Group. Trên cửa sổ Group vừa hiện ra, đặt Bin size theo kích cỡ mà bạn muốn, thiết lập các đặc điểm mà bạn muốn, sau đó chọn OK.

Khi bạn đã thiết lập được bin, bạn sẽ thấy một trường mới trong ngăn Fields với (bins) ở sau tên của nhóm. Sau đó, bạn có thể kéo trường đó vào báo cáo để sử dụng bins.
Kỹ thuật Clustering
Clustering giúp bạn nhận ra các nhóm (cluster) dữ liệu tương đồng với nhau và các điểm dữ liệu này khác xa với các điểm dữ liệu khác. Clustering sẽ tương đối khác so với grouping.
Tính năng clustering trong Power BI giúp bạn nhanh chóng tìm ra các nhóm dữ liệu tương đồng. Nó phân tích bộ dữ liệu của bạn để xác định sự tương đồng và khác biệt trong các giá trị thuộc tính, sau đó nó tách các điểm dữ liệu tương đồng thành một nhóm. Các tập hợp con này được gọi là clusters.
Chẳng hạn, bạn muốn tìm ra xu hướng trong dữ liệu bán hàng, ví dụ như hành vi của khách hàng. Bạn có thể phân khúc khách hàng thành các clusters, theo những điểm tương đồng của họ, chẳng hạn như tuổi tác hoặc vị trí.
Bắt đầu bằng cách thêm Scatter chart vào báo cáo, sau đó thêm các trường. Trong ví dụ này, bạn thêm Order Qty vào trục X, Sales vào trục Y, và Product Name vào Legend. Như bạn có thể thấy trong hình, đang có rất nhiều điểm dữ liệu trong scatter chart, do đó sẽ rất khó để tìm ra một nhóm nào đó.

Để sử dụng clustering, chọn More options (…) ở góc trên bên phải của biểu đồ, rồi chọn Automatically find clusters.
Trên cửa sổ Clusters, bạn có thể chỉnh sửa tên, trường và mô tả mặc định. Nhưng trong ví dụ này, bạn muốn thay đổi số lượng clusters. Như bạn có thể thấy trong hình sau, hộp Number of clusters được mặc định là trống (blank), khi đó Power BI tự động tìm thấy số clusters mà nó nghĩ là phù hợp nhất.

Nhập con số mà bạn muốn (3) vào hộp, sau đó chọn OK. Power BI sẽ chạy thuật toán clustering algorithm và tạo trường phân loại mới. Biểu đồ của bạn sẽ được cập nhật và bạn có thể quan sát dễ dàng các clusters để thực hiện phân tích.

Nếu bạn muốn chỉnh sửa cluster, bấm chuột phải vào cluster field và chọn Edit clusters.

Trong ví dụ trên, khi bạn sử dụng clustering cho scatter chart, bạn chỉ có thể sử dụng 2 measures. Nếu bạn muốn tìm ra clusters sử dụng nhiều hơn 2 measures, bạn có thể sử dụng biểu đồ dạng bảng và thêm tất cả các trường bạn muốn, rồi sử dụng thuật toán của cluster.
Các bạn cũng có thể đăng ký các khóa học về phân tích nâng cao trong Power BI tại Datapot theo link này nha 😀