Mỗi ngày, các doanh nghiệp thực hiện hàng trăm ngàn, thậm chí hàng triệu, chục triệu giao dịch với khách hàng. Các doanh nghiệp ngày càng nhận thức được tầm quan trọng của việc lưu trữ và phân tích dữ liệu, từ đó phát triển kinh doanh, dự báo tăng trưởng, giảm thiểu rủi ro,… Việc sử dụng các sản phẩm, nền tảng lưu trữ, xử lí, phân tích dữ liệu, học máy,… đã, đang và vẫn sẽ là một xu hướng phát triển mạnh mẽ trong thời gian sắp tới.
Khi nhu cầu của người dùng tăng cao, các giải pháp về lưu trữ, xử lí và phân tích dữ liệu cũng trở nên ngày càng đa dạng hơn. Tuy nhiên, để đáp ứng được bài toán của doanh nghiệp, người dùng có thể cần sử dụng rất nhiều phần mềm, giải pháp, nền tảng về dữ liệu khác nhau. Hệ quả là việc quản lí truy cập và cấp quyền trở nên rất phức tạp, phải xử lí dữ liệu nhiều lần đối với các nền tảng, phần mềm yêu cầu những định dạng dữ liệu khác nhau, dữ liệu không tương thích giữa các phần mềm, hoặc phải trích xuất và tải dữ liệu, lưu trữ dữ liệu theo từng phòng ban khác nhau dẫn đến việc dữ liệu bị trùng lặp, bị thiếu trong quá trình chuyển giao dữ liệu,… Những hệ quả này không chỉ là bài toán khó cho các doanh nghiệp sử dụng mà còn là một vấn đề đối với bất cứ một doanh nghiệp cung cấp nền tảng giải pháp dữ liệu nào.
Sự ra mắt của Microsoft Fabric trong thời gian gần đây đã mở ra một triển vọng mới nhằm giải quyết các vấn đề còn tồn đọng đã nêu trên. Vậy Microsoft Fabric là gì, và liệu chúng ta có thể sử dụng giải pháp này trong những trường hợp nào? Trong bài viết này, chúng ta sẽ cùng tìm hiểu kĩ hơn về Microsoft Fabric và các thành phần của giải pháp này trong việc quản lý, xử lý và phân tích dữ liệu.
Các nội dung chính
Microsoft Fabric là gì?
Microsoft Fabric (hay Fabric) là một giải pháp phân tích tổng hợp dành cho doanh nghiệp, bao gồm hầu như toàn bộ các khâu từ dịch chuyển dữ liệu cho tới khoa học dữ liệu, phân tích dữ liệu thời gian thực và thu thập, phân tích dữ liệu hỗ trợ người dùng đưa ra quyết định. Fabric cung cấp một bộ các dịch vụ liên quan đến data lake, data engineering và tích hợp dữ liệu, tất cả chỉ trong một giải pháp duy nhất. Nói cách khác, người dùng chỉ cần sử dụng Fabric thay vì sử dụng nhiều dịch vụ từ các nhà cung cấp khác nhau.
Fabric được xây dựng trên nền móng SaaS, bao gồm các thành phần mà người dùng đã quen thuộc như Power BI, Azura Synapse và Azura Data Factory, và được tích hợp chung trên một môi trường. Việc tích hợp này mang lại cho người dùng một số lợi ích như:
- Phạm vi phân tích tích hợp chuyên sâu.
- Tận dụng những trải nghiệm đã có để sử dụng công cụ.
- Người phát triển (developers) có thể dễ dàng truy cập và tái sử dụng các tài nguyên.
- Chỉ sử dụng một data lake thống nhất cho tất cả các công cụ phân tích.
- Quản trị tập trung đối với tất cả các công cụ.
Fabric cho phép người dùng tập trung vào việc sử dụng dữ liệu một cách hiệu quả, thay vì phải tích hợp, quản lý, hoặc hiểu rõ kiến trúc hạ tầng của cơ sở dữ liệu.
Thành phần của Fabric
Fabric cung cấp cho người dùng một bộ tổng hợp công cụ phân tích cho một chuỗi công đoạn xử lí dữ liệu liên tục như sau:

- Data Engineering: hoạt động trên nền tảng Spark, cho phép data engineer thực hiện chỉnh sửa dữ liệu quy mô lớn thông qua lakehouse. Việc tích hợp Spark trong Fabric với Data Factory sẽ giúp người dùng có thể hẹn giờ cho notebooks và spark job dễ dàng.
- Data Factory: là sự kết hợp giữa Azure Data Factory và Power Query cùng với quy mô và khả năng xử lí của Azure Data Factory. Người dùng có thể sử dụng hơn 200 connectors để kết nối với các nguồn dữ liệu.
- Data Science: cho phép người dùng xây dựng, triển khai và vận hành mô hình học máy trên Fabric. Với các dự đoán được trả về, business analyst có thể đưa kết quả này vào trong báo cáo BI của mình.
- Data Warehouse: người dùng có thể trải nghiệm hiệu năng và phạm vi SQL với chất lượng cao, do tại DW trong Fabric việc tính toán và lưu trữ sẽ được tách riêng biệt, vì vậy có thể cùng lúc tăng hiệu năng của cả hai cấu phần. Dữ liệu trong DW cũng được lưu trữ dưới định dạng mở Delta Lake.
- Real-Time Analytics – Phân tích theo thời gian thực: Dữ liệu dưới dạng quan sát, là các loại dữ liệu thu thập được từ nhiều nguồn như apps, các thiết bị cảm ứng, tiếp xúc giữa người và người,… Hiện nay đây là loại dữ liệu có tốc độ tăng trưởng nhanh nhất. Loại dữ liệu này thường được tổ chức dưới dạng bán cấu trúc dưới định dạng như JSON và Text, có số lượng lớn, và schema thay đổi nhanh chóng. Những đặc điểm này khiến cho việc lưu trữ loại dữ liệu trong các nền tảng DW truyền thống trở nên khó khăn. Real-time Analytics là phương pháp tốt nhất để thực hiện phân tích dữ liệu quan sát.
- Power BI: Power BI là một trong những nền tảng Business Intelligence hàng đầu trên thế giới. Thông qua công cụ này, chủ doanh nghiệp có thể nhanh chóng tiếp cận tất cả dữ liệu trong Fabric và đưa ra quyết định tốt hơn nhờ dữ liệu.
Fabric đưa tất cả những trải nghiệm này vào một nền tảng thống nhất để tạo ra một nền tảng phân tích dữ liệu toàn diện nhất trong ngành khoa học dữ liệu.
Microsoft Fabric Lake – OneLake
Microsoft đã xây dựng tất cả các dịch vụ của Fabric dựa trên nền tảng data lake. Microsoft Fabric Lake – còn được gọi là OneLake – được đưa vào Fabric và sẽ là một nơi duy nhất để lưu trữ tất cả dữ liệu mà sau đó sẽ được sử dụng bởi các công cụ khác trong Fabric.
OneLake được xây dựng dựa trên nền tảng ADLS (Azure Data Lake Storage) Gen 2. OneLake đơn giản hóa trải nghiệm cho người dùng, giúp họ không cần tìm hiểu về các khái niệm cơ sở hạ tầng như nhóm nguồn (resource groups), RBAC (Role-Based Access Control), Azure Resource Manager, dữ liệu trùng lặp, phân vùng. Người dùng cũng không cần có tài khoản Azure khi sử dụng OneLake.
OneLake tạo ra một hệ thống lưu trữ thống nhất và duy nhất cho tất cả người dùng trong doanh nghiệp, giúp việc truy cập và chia sẻ dữ liệu dễ dàng, đồng thời tăng cường bảo mật và quản lí do được quản lí tập trung và thống nhất.
OneLake được thiết kế có tính phân tầng để đơn giản hóa việc quản lý trong doanh nghiệp. Người dùng không cần thiết lập cơ sở hạ tầng công nghệ trước khi sử dụng. Chỉ tồn tại một OneLake đối với mỗi tài khoản người dùng, và luôn hiển thị tập trung trong một màn hình đối với tất cả người dùng ở tất cả các vùng địa lý và trên clouds. Dữ liệu trong OneLake được lưu trữ trong các workspaces (tương tự như folder) có thể dễ dàng quản lí.
Hình ảnh dưới đây thể hiện cách Lakehouse, Warehouse, Datasets, Kusto được lưu trữ trong OneLake của Fabric. Đối với mỗi tenant Fabric (tenant: gắn với DNS của doanh nghiệp, mỗi doanh nghiệp thường sở hữu 1 tenant và nó được gắn liền với Azure Active Directory), người dùng có thể tạo nhiều workspace, và tạo nhiều lakehouse trong mỗi workspace. Mỗi lakehouse là một tổ hợp từ nhiều files, folders và bảng đại diện cho 1 database trong 1 data lake.

Mỗi lập trình viên hoặc mỗi bộ phận trong doanh nghiệp có thể nhanh chóng tạo workspace riêng của mình trên OneLake. Sau đó, họ có thể bổ sung thêm dữ liệu từ lakehouses riêng của họ, từ đó vận hành, phân tích và hợp tác dựa trên data chung, tương tự như OneDrive trong Office.
OneLake được cài đặt sẵn khi cài đặt Microsoft Fabric, tương tự như việc OneDrive được tích hợp khi cài đặt Office. Người dùng cũng không cần thiết lập hay cài đặt thêm, OneLake được coi là nguồn lưu trữ mặc định của tất cả các thành phần trong Fabric (Data Engineering, Data Warehouse, Data Factory, Power BI, Real-Time Analytics).
Một tính năng nổi bật khác của OneLake là tạo Shortcut. Thay vì phải di chuyển hay copy các dữ liệu đã có sẵn, người dùng có thể tạo Shortcut để truy cập vào các dữ liệu được lưu trữ trong Azure Data Lake Storage. Shortcut cũng giúp người dùng dễ dàng chia sẻ dữ liệu mà không cần dịch chuyển hay tạo thêm bản ghi. Nhờ tính năng này, người dùng có thể sử dụng dữ liệu từ nhiều clouds để phân tích. Bộ nhớ đệm thông minh và mạch lạc này giúp giảm chi phí đầu ra khi dịch chuyển dữ liệu khỏi clouds và giúp người dùng dễ dàng xử lý dữ liệu.
Tại sao nên sử dụng Fabric?
Sau khi đã tìm hiểu về Fabric và các thành phần của nền tảng này, chúng ta có thể nhận thấy được một số lợi ích Fabric mang lại là khá thiết thực. Ngoài những điểm mạnh vốn có do được tích hợp từ các công cụ xử lý dữ liệu hàng đầu do Microsoft phát triển, Fabric còn mang lại những giá trị riêng đáng kể đến như:
- Fabric là một nền tảng khoa học dữ liệu hoàn chỉnh.
Chúng ta biết rằng mỗi dự án khoa học dữ liệu đều đòi hỏi rất nhiều công cụ và những công cụ này lại tới từ nhiều nhà phát triển khác nhau. Việc tích hợp, xử lí đồng thời bằng những công cụ này có thể trở nên rất phức tạp, không ổn định và đắt đỏ.
Với Fabric, người dùng chỉ cần sử dụng một nền tảng. Nó đã tích hợp tất cả những tính năng cần thiết dành cho người dùng để tìm ra insight từ dữ liệu và trình bày thông tin đó tới những người trong doanh nghiệp. Fabric cũng chia rõ vai trò cho các nhóm theo nhu cầu, như nhóm cho data engineers, data warehousing professionals, data scientists, data analysts, và cả người sử dụng trong doanh nghiệp.
- Fabric sử dụng kiến trúc dữ liệu mở lake-centric
Việc sử dụng data lake hiện nay có thể trở nên rất phức tạp, lộn xộn, khó kiểm soát và vận hành, dễ gây ra việc trùng lặp dữ liệu và phải phụ thuộc vào nhiều nhà phát triển.
OneLake được tích hợp sẵn trong Fabric cung cấp cho người dùng một hệ thống lưu trữ thống nhất, quản lí và bảo mật tập trung. OneLake được xây dựng và tương thích với nền tảng ADLSg2, thích hợp cho nhiều đối tượng sử dụng.
- Định dạng dữ liệu mở cho tất cả công cụ khoa học dữ liệu tích hợp trong Fabric
Fabric sử dụng định dạng Delta trong file Parquet là định dạng mặc định cho tất cả workload. Người dùng chỉ cần load dữ liệu vào lake một lần và tất cả workload khác đều vận hành dựa trên cùng một định dạng này mà không cần xử lí riêng biệt.
Việc quản trị bảo mật dữ liệu (theo bảng, theo cột, theo dòng) đối với mỗi công cụ xử lí data khác nhau là công việc cực kì phức tạp và gây nhiều khó khăn cho người dùng. Trong tương lai, Fabric kì vọng cung cấp được một mô hình bảo mật tổng thể được quản trị trong OneLake, và tất cả các công cụ được tích hợp trong đó sẽ thực hiện bảo mật theo mô hình thống nhất với nó.
- Fabric được tích hợp thêm AI
Azure OpenAI Service đã được tích hợp với Fabric nhằm hỗ trợ người dùng khai thác tối đa giá trị từ dữ liệu của họ. Với Copilot trong Fabric, người dùng có thể sử dụng ngôn ngữ giao tiếp để tạo dataflows và data pipelines, tạo code và toàn bộ các chức năng, xây dựng mô hình học máy, hoặc trực quan hóa kết quả. Người dùng thậm chí có thể tự tạo riêng ngôn ngữ giao tiếp và kết hợp với mô hình của Azure OpenAI Service và dữ liệu của mình, sau đó sử dụng chức năng này như một plug-in. Microsoft cam kết không sử dụng dữ liệu của người dùng để xây dựng mô hình ngôn ngữ cơ bản của Copilot. Chức năng này sẽ sớm được ra mắt trong tương lai.
- Người dùng Office 365 có thể tận dụng các thế mạnh từ Fabric
Fabric được tích hợp chuyên sâu với các sản phẩm Microsoft 365 mà người dùng vẫn thường sử dụng hàng ngày. Power BI là phần cốt lõi của Fabric và đã được tích hợp trong các sản phẩm Microsoft 365. Thông qua đó, người dùng có thể dễ dàng truy cập và khai thác những dữ liệu được lấy từ OneLake. Ví dụ, người dùng Microsoft Excel có thể khai thác và phân tích dữ liệu trực tiếp từ OneLake và tạo báo cáo Power BI. Trên Teams, người dùng có thể đưa dữ liệu vào công việc hàng ngày với các channel, chat, meeting đã được tùy chỉnh. Người dùng có thể gắn báo cáo Power BI trực tiếp vào Microsoft PowerPoint và tương tác trên đó,…
- Fabric giúp giảm thiểu chi phi thông qua việc thống nhất khả năng xử lí (compute capacity)
Như đã đề cập, mỗi project khoa học dữ liệu ngày nay thường sử dụng kết hợp nhiều sản phẩm từ nhiều nhà phát triển. Do đó người dùng thiết lập trước khả năng xử lý của nhiều hệ thống như data integration, data engineering, data warehousing, và business intelligence. Khi một trong các hệ thống này rảnh rỗi, các hệ thống khác không thể tận dụng được khả năng xử lí của nó, gây ra một sự lãng phí đáng kể.
Vấn đề này được cải thiện khi sử dụng Fabric, vì khả năng xử lí đã được thống nhất nên chúng luôn hoạt động, tránh việc không tận dụng được khả năng xử lí của một hệ thống riêng biệt.
Ai nên sử dụng Fabric?
Doanh nghiệp Green Field
Doanh nghiệp Green Field là những doanh nghiệp đầu tư xây dựng chi nhánh, công ty con tại nước ngoài. Các doanh nghiệp này luôn phải xây dựng toàn bộ hệ thống vận hành hoàn toàn mới, do đó lựa chọn sử dụng Fabric có thể giúp giảm thiểu nhiều chi phí và thời gian xây dựng, tăng cường bảo mật và quản lí tập trung. Với mô hình hóa đơn thân thiện và minh bạch, người dùng có thể quản lí và tối ưu hóa budget một cách hiệu quả.
Doanh nghiệp sử dụng Azure Synapse
Với doanh nghiệp đã sử dụng nền tảng Azure Synapse, việc sử dụng Fabric sẽ trở nên dễ dàng và tiện lợi hơn. Dữ liệu được lưu trữ trong một môi trường thống nhất và đồng nhất dưới một định dạng giúp quản lí và củng cố chất lượng dữ liệu. Hơn thế, việc Fabric tích hợp cả Power BI giúp cho nhân viên trong doanh nghiệp có thể tiếp cận dữ liệu một cách cụ thể, thông qua nhiều loại phần mềm trong hệ sinh thái Microsoft.
Doanh nghiệp sử dụng Azure Data Lake và Azure SQL
Những doanh nghiệp đã quen thuộc với các công nghệ như data lakes, data pipelines, SQL có thể xem xét việc sử dụng Fabric trong doanh nghiệp của mình. Ngoài những tính năng sẵn có của Azure Data Lake, SQL, doanh nghiệp có thể tận dụng Power BI để trực quan hóa những insight từ dữ liệu của mình, đồng thời củng cố tính bảo mật và quản lí và nhiều tính năng khác thông qua Azure Synapse được tích hợp trong Fabric.
Doanh nghiệp sử dụng Power BI
Những doanh nghiệp đã sử dụng Power BI để xây dựng báo cáo có thể xem xét việc sử dụng Fabric. Nhờ vào sự thống nhất trong lưu trữ dữ liệu, tính bảo mật và quản lí tập trung, khả năng xử lí dữ liệu mạnh mẽ nhanh chóng, Fabric có thể giúp Power BI mà doanh nghiệp đang sử dụng tăng thêm nhiều giá trị.
Doanh nghiệp đang sử dụng cloud khác
Đối với những doanh nghiệp đang sử dụng nền tảng cloud khác nhưng vẫn đang tìm kiếm một giải pháp lưu trữ, quản lí và xử lí dữ liệu tập trung, Fabric có thể là một lựa chọn xứng đáng nhờ những lợi thế mạnh mẽ và mới mẻ của nó. Không chỉ có thế mạnh trong việc xử lí dữ liệu, Fabric còn hướng tới những đối tượng cần nghiên cứu học máy, AI, phân tích trên thời gian thực,…
Khi nào nên sử dụng Fabric?
Fabric là một sản phẩm mới ra mắt của Microsoft, do đó người dùng sẽ có nhiều cân nhắc trước khi áp dụng vào hệ thống của doanh nghiệp. Người dùng có thể bắt đầu sử dụng Fabric với một dự án khoa học dữ liệu mới triển khai, giảm thiểu chi phí đầu tư ban đầu cho quá nhiều sản phẩm, đồng thời có sự quản lí tập trung, tính bảo mật cao.
Người dùng cũng có thể xem xét việc sử dụng Fabric khi cần nâng cấp, cải tiến cho hệ thống sẵn có. Với khả năng xử lí được thống nhất, sự tích hợp nhiều công cụ phân tích, Fabric có thể giúp doanh nghiệp giảm thời gian xử lí dữ liệu, đưa ra nhiều insight chuyên sâu hơn.
Ngoài ra, nếu doanh nghiệp đang có nhu cầu nâng cấp hoặc thay đổi cấu trúc của cơ sở dữ liệu của dự án khoa học dữ liệu của mình từ kiến trúc in-house lên cloud hoặc từ cloud này sang cloud khác, Fabric có thể cung cấp giải pháp thay đổi cấu trúc như sử dụng Shortcut, đảm bảo tính tổ chức và hiệu quả trong quá trình nâng cấp.
License
Để chia sẻ nội dung trong Fabric, doanh nghiệp cần có license doanh nghiệp và ít nhất 1 license cá nhân. Trước hết, cần hiểu về hệ thống tổ chức trong license của Fabric. Mỗi subscription Microsoft Fabric bao gồm 3 cấp độ: tenant, capacity và workspace.

- Tenant: Mỗi tenant gắn với 1 DNS. Tenant được tạo khi người dùng mua 1 capacity, và người dùng có thể tạo thêm nhiều capacity sau đó. Thông thường mỗi doanh nghiệp sở hữu 1 tenant.
- Capacity: Capacity nằm trong tenant. Độ lớn của capacity quyết định khả năng xử lí dữ liệu của nó. Mỗi capacity nằm trong 1 tenant là một bể chứa các nguồn dữ liệu lưu trữ trong Fabric.
- Workspace: Nằm trong capacity và được sử dụng để chứa các mục dữ liệu Fabric. Mỗi người dùng Fabric có 1 workspace riêng mang tên My Workspace. Có thể tạo thêm nhiều workspace để trao đổi và kết hợp trong doanh nghiệp. Workspace được tạo mặc định trong capacity được chia sẻ chung trong doanh nghiệp. Khi doanh nghiệp có những capacity khác, workspace – bao gồm cả My workspace – có thể được lưu trong bất kì một capacity nào thuộc doanh nghiệp.
License doanh nghiệp
License doanh nghiệp cung cấp cơ sở hạ tầng cho Fabric. Nếu không có license doanh nghiệp, người dùng doanh nghiệp không thể cùng làm việc trên Fabric. Có 2 dạng license doanh nghiệp là:
Licence | Mô tả | Khởi tạo | Chia sẻ |
---|---|---|---|
Premium Per User (PPU) | Tạo Power BI và sử dụng được nhiều tính năng của Power BI Premium | Khởi tạo được mục dữ liệu Power BI và kết nối đến những file Power BI được tạo ra bởi những người dùng Pro và PPU khác. | Có thể chia sẻ nội dung Power BI với những người dùng PPU khác, và sử dụng được nội dung Power BI do người dùng Pro và PPU khác chia sẻ. |
Capacity (tương tự Premium license trên Power BI) | Sử dụng tất cả tính năng của Microsoft Fabric | Khởi tạo được các mục dữ liệu Microsoft Fabric và kết nối với những mục dữ liệu Microsoft Fabric khác. | Lưu mục dữ liệu của người dùng trong workspace và chia sẻ với những người dùng có license Microsoft Fabric khác. |
License cá nhân
Có 2 dạng license cá nhân trong Fabric như sau:
- Free: Cho phép người dùng tạo và chia sẻ nội dung Fabric trong Microsoft Fabric nếu người dùng có quyền truy cập vào Fabric Capacity (trả phí hoặc dùng thử)
- Pro: Cho phép người dùng chia sẻ nội dung Power BI với người dùng khác. Mỗi doanh nghiệp cần có ít nhất một Pro license nếu muốn làm việc với Power BI.
Tính năng | Free | Pro |
---|---|---|
Truy cập vào web Microsoft Fabric | x | x |
Tạo workspace trong Fabric | x | x |
Tạo workspace Pro và Power BI Premium | x | |
Tạo mục dữ liệu Power BI trong workspaces khác ngoài “My Workspace” | x | |
Xem các mục dữ liệu Power BI được chia sẻ trong workspace Pro hoặc workspace Fabric (workspace Fabric SKU dưới F64) và có tạo role người xem | x | |
Xem các mục dữ liệu Power BI được chia sẻ trong workspace Power BI Premium Per Capacity hoặc workspace Fabric (workspace Fabric SKU bằng hoặc trên F64) và có tạo role người xem | x | x |
Tạo mục dữ liệu không thuộc về Power BI Fabric trong workspace Fabric/Trial/Power BI Premium | x | x |
Chia sẻ những mục dữ liệu không thuộc về Power BI Fabric | x | x |
Một số hạn chế
Do mới được ra mắt, Fabric vẫn tồn tại một số vấn đề kĩ thuật, đặc biệt là trong mảng Data Factory và Data warehouse, có thể kể đến như:
- Pipeline không hỗ trợ Continuous Integration và Continuous Delivery (CI/CD).
- Connector không hỗ trợ OAuth, Azure key vault (AKV) và Managed System Identity (MSI).
- Connector chưa tận dụng được parameter.
- Không thể lookup từ nguồn files hoặc bảng của Fabric Lakehouse.
- Không thể tạo script từ nguồn bảng Fabric Lakehouse (SQL Endpoint) hoặc KQL database.
- Hiện tại một số lệnh T-SQL có thể khiến warehouse bị lỗi.
- Chức năng recovery warehouse chưa có sẵn trong bản preview.
- Data warehousing trên nhiều vùng địa lí chưa được hỗ trợ trong bản preview.
Tham khảo tại: https://learn.microsoft.com/en-us/fabric/get-started/microsoft-fabric-overview
Trên đây là những thông tin tổng quan về Microsoft Fabric. Trong các bài viết tiếp theo, mình sẽ giới thiệu tới các bạn chi tiết các thành phần chính trong Microsoft Fabric. Hãy lưu bài viết để đọc lại bất cứ lúc nào nhé!