Trong bài viết này, chúng ta sẽ đi tìm hiểu về phân tích dữ liệu (data analysis) và các cấp bậc của phân tích dữ liệu. Hiểu được khái niệm phân tích dữ liệu chính là bước đầu tiên trong hành trình chinh phục ngành dữ liệu.
Các nội dung chính
Phân tích dữ liệu là gì?
Phân tích dữ liệu (data analyst) là quá trình xác định, làm sạch, biến đổi và mô hình hóa dữ liệu để khám phá thông tin hữu ích và có ý nghĩa. Dữ liệu sau đó được tạo thành một câu chuyện thông qua các báo cáo để phân tích nhằm hỗ trợ quá trình ra quyết định quan trọng.
Phân tích dữ liệu đang là và nên là một khía cạnh quan trọng của tất cả các doanh nghiệp, tác động lớn đến việc phân tích và ra quyết định kinh doanh trong tất cả các lĩnh vực, bao gồm cả tâm lý khách hàng, nghiên cứu thị trường và sản phẩm, xác định xu hướng hoặc bất kỳ insight nào khác về dữ liệu. Tuy nhiên, một thách thức mà hầu hết các doanh nghiệp đang phải đối mặt là không sử dụng hết tiềm năng của dữ liệu. Đó là lý do mà các doanh nghiệp, tổ chức đang liên tục tìm kiếm những data analyst – nhà phân tích dữ liệu.
Mặc dù quá trình phân tích dữ liệu tập trung vào các nhiệm vụ làm sạch, mô hình hóa và trực quan hóa dữ liệu, nhưng không nên đánh giá thấp khái niệm phân tích dữ liệu và tầm quan trọng của nó đối với hoạt động kinh doanh. Phân tích dữ liệu được phân tách thành các cấp bậc như sau:

Hãy cùng tìm hiểu từng cấp bậc của Data Analytics:
Descriptive Analytics (Phân tích mô tả)
Phân tích mô tả giúp trả lời các câu hỏi về những gì đã xảy ra, dựa trên dữ liệu quá khứ. Các kỹ thuật phân tích mô tả tóm tắt các bộ dữ liệu lớn để mô tả kết quả cho các bên liên quan.
Bằng cách phát triển KPIs (Key Performance Indicators), các chiến lược này có thể giúp theo dõi sự thành công hay thất bại của các mục tiêu chính. Các chỉ số như lợi tức đầu tư (ROI) được sử dụng trong rất nhiều ngành. Còn các thước đo chuyên biệt thì được phát triển để theo dõi hiệu suất trong các ngành cụ thể.
Ví dụ về phân tích mô tả bao gồm việc tạo báo cáo để cung cấp cái nhìn về dữ liệu tài chính và bán hàng của một doanh nghiệp.
Diagnostic Analytics (Phân tích chẩn đoán)
Phân tích chẩn đoán giúp trả lời các câu hỏi về lý do tại sao sự việc lại xảy ra. Các kỹ thuật phân tích chẩn đoán bổ sung thêm cho các phân tích mô tả cơ bản. Họ lấy những phát hiện từ phân tích mô tả và đào sâu hơn để tìm ra nguyên nhân. Các chỉ số hiệu suất được nghiên cứu thêm để tìm ra lý do tại sao chúng trở nên tốt hơn hoặc kém đi. Điều này thường diễn ra trong ba bước:
1. Xác định các điểm bất thường trong dữ liệu. Đây có thể là những thay đổi bất ngờ trong một số liệu hoặc một thị trường cụ thể.
2. Thu thập dữ liệu liên quan đến những điểm bất thường này.
3. Sử dụng các kỹ thuật thống kê để khám phá các mối quan hệ và xu hướng giải thích những bất thường này.
Predictive Analytics (Phân tích dự đoán)
Phân tích dự đoán giúp trả lời các câu hỏi về những gì sẽ xảy ra trong tương lai. Các kỹ thuật phân tích dự đoán sử dụng dữ liệu quá khứ để xác định xu hướng và quyết định xem chúng có khả năng tái diễn hay không. Các công cụ phân tích dự đoán cung cấp hiểu biết có giá trị về những gì có thể xảy ra trong tương lai. Các kỹ thuật bao gồm nhiều kỹ thuật thống kê và học máy (machine learining) như mạng nơ-ron, cây quyết định (decision trees) và hồi quy.
Prescriptive analytics (Phân tích đề xuất)
Phân tích đề xuất giúp trả lời các câu hỏi về những hành động cần được thực hiện để đạt được mục tiêu. Bằng cách sử dụng insight từ phân tích dự đoán, bạn có thể đưa ra các quyết định dựa trên dữ liệu. Kỹ thuật này cho phép các doanh nghiệp đưa ra quyết định sáng suốt khi đối mặt với sự không chắc chắn. Các kỹ thuật phân tích mô tả dựa trên các chiến lược machine learining để tìm các khuôn mẫu trong tập dữ liệu lớn. Bằng cách phân tích các quyết định và sự kiện trong quá khứ, có thể ước tính khả năng xảy ra các kết quả khác nhau.
Cognitive analytics
Cognitive analytics cố gắng rút ra các suy luận từ dữ liệu và mẫu hiện có, đưa ra kết luận dựa trên cơ sở kiến thức hiện có, sau đó bổ sung những phát hiện này trở thành cơ sở kiến thức cho các suy luận trong tương lai, một vòng lặp tự học. Cognitive analytics giúp bạn tìm hiểu điều gì có thể xảy ra nếu hoàn cảnh thay đổi và cách bạn có thể xử lý những tình huống này.
Mức độ hiệu quả của cognitive analytics phụ thuộc vào các thuật toán machine learning. Nó sử dụng một số khái niệm NLP (Natural Language Processing) để hiểu các nguồn dữ liệu chưa được khai thác trước đây, chẳng hạn như nhật ký hội thoại của trung tâm cuộc gọi và đánh giá sản phẩm.
Mình hy vọng rằng sau bài viết này, các bạn có thể hiểu hơn về ngành phân tích dữ liệu. Ở số tiếp theo, chúng ta sẽ cùng điểm qua về công việc của ngành phân tích dữ liệu. Và bên cạnh đó, các bạn còn có thể tham khảo các khóa học của DataPot tại đây nhé.