Giải thích 25 thuật ngữ Data Science theo cách dễ hiểu cho người ngoại đạo
Last updated: October 10, 2024 Xem trên toàn màn hình
- 26 Jul 2024 "Khổ tận cam lai" - Làm thế nào để chuyển hóa từ khổ thành sướng?
- 03 May 2019 Business Rule là gì?
- 01 Feb 2023 Information Radiator là gì?
- 01 Sep 2022 Thiên kiến xác nhận (Confirmation Bias) có phải là một dạng bảo thủ?
- 04 Sep 2020 IQ, EQ hay LQ quan trọng nhất trong thời đại 4.0?
Giải thích 24 thuật ngữ Data Science cho bất kì ai
1. A/B Testing (Kiểm thử A/B)
So sánh hai phiên bản, như hai mẫu quảng cáo, để xem cái nào hiệu quả hơn.
2. Algorithm (Thuật toán)
Quy trình từng bước để giải quyết vấn đề, tương tự công thức nấu ăn.
3. Artificial Intelligence (AI) (Trí tuệ nhân tạo)
Máy móc thực hiện các nhiệm vụ đòi hỏi trí thông minh như con người.
4. Big Data (Dữ liệu lớn)
Khối lượng thông tin khổng lồ, phức tạp, vượt quá khả năng xử lý thông thường.
5. Classification (Phân loại)
Sắp xếp dữ liệu vào các nhóm, ví dụ phân loại email thành thư rác và không phải thư rác.
6. Clustering (Phân cụm)
Gom nhóm các điểm dữ liệu tương đồng, như phân khúc khách hàng theo hành vi.
7. Data Mining (Khai phá dữ liệu)
Tìm kiếm thông tin có giá trị trong dữ liệu lớn, như phát hiện xu hướng mua sắm.
8. Data Preprocessing (Tiền xử lý dữ liệu)
Chuẩn bị dữ liệu thô trước khi phân tích, ví dụ loại bỏ thông tin sai lệch.
9. Decision Trees (Cây quyết định)
Mô hình ra quyết định dạng cây, giống sơ đồ "nếu-thì" nhiều tầng.
10. Deep Learning (Học sâu)
Máy tính học qua nhiều lớp, mô phỏng cách não bộ xử lý thông tin phức tạp.
11. Ensemble Learning (Học tập đồng diễn)
Là phương pháp tổng hợp kết quả các bộ phân loại/hồi quy yếu (weak learner) để thu được một bộ học mạnh (strong learner). Kết hợp nhiều mô hình để có kết quả tốt hơn, như tham khảo ý kiến nhiều chuyên gia.
12. Feature Engineering (Chuyển hóa thành tính năng)
Tạo ra các đặc điểm hữu ích từ dữ liệu thô, như tính tuổi từ ngày sinh.
Feature Engineering là quá trình chuyển đổi tập dữ liệu thô ban đầu thành tập các thuộc tính (features) có thể giúp biểu diễn tập dữ liệu ban đầu tốt hơn, tạo điều kiện để giải quyết các bài toán dễ dàng hơn, giúp tương thích với từng mô hình dự đoán cụ thể, cũng như cải thiện độ chính xác của mô hình dự đoán hiện tại.
13. Gradient Descent (Giảm dần độ dốc)
Phương pháp tối ưu hóa, giống việc tìm đường xuống núi trong sương mù.
14. Hyperparameter Tuning (Điều chỉnh siêu tham số)
Tinh chỉnh các thông số của mô hình để cải thiện hiệu suất.
Trong đó:
- "Mô hình" là một công cụ toán học hoặc thuật toán mà máy tính sử dụng để học và đưa ra dự đoán từ dữ liệu. Nó giống như một "bộ não" nhân tạo được tạo ra để giải quyết một vấn đề cụ thể.
- "Siêu tham số" là những cài đặt của mô hình mà ta phải xác định trước khi bắt đầu quá trình học.
- Việc điều chỉnh này giống như việc tinh chỉnh các núm điều khiển trên một chiếc radio để có được âm thanh tốt nhất, nhưng trong trường hợp này, ta đang tối ưu hóa hiệu suất của mô hình học máy.
Ví dụ thực tế: Khi huấn luyện một mô hình nhận diện khuôn mặt, việc điều chỉnh siêu tham số có thể bao gồm việc thay đổi số lượng lớp trong mạng nơ-ron, tốc độ học, hay kích thước lô dữ liệu để cải thiện độ chính xác của nhận diện.
15. Machine Learning (Học máy)
Máy tính tự học từ dữ liệu để đưa ra dự đoán hoặc quyết định.
16. Natural Language Processing (NLP) (Xử lý ngôn ngữ tự nhiên)
Giúp máy tính hiểu và xử lý ngôn ngữ con người.
17. Neural Networks (Mạng nơ-ron)
Mô hình máy tính lấy cảm hứng từ não người, học nhận dạng mẫu phức tạp.
Trong đó:
- "Mẫu" (pattern) là những cấu trúc, quy luật hoặc đặc điểm lặp lại trong dữ liệu mà con người có thể khó nhận ra được, nhưng máy tính có thể phát hiện dễ dàng.
- Việc "nhận dạng mẫu" có thể hiểu như sau:
- Trong hình ảnh: Nhận ra khuôn mặt người trong ảnh chụp đám đông.
- Trong âm thanh: Phát hiện từ ngữ trong tiếng nói.
- Trong văn bản: Tìm ra chủ đề chính của một bài viết.
- Trong dữ liệu số: Phát hiện giao dịch bất thường trong lịch sử ngân hàng.
Ví dụ cụ thể: Một mạng nơ-ron được huấn luyện để nhận diện chữ viết tay. Nó học cách nhận ra các "mẫu" đặc trưng của từng chữ cái (như đường cong, góc cạnh) để phân biệt chữ 'A' với chữ 'B', kể cả khi chữ viết không hoàn hảo.
Khả năng nhận dạng mẫu này giúp mạng nơ-ron có thể xử lý được nhiều loại dữ liệu phức tạp và đa dạng, từ đó ứng dụng trong nhiều lĩnh vực như nhận diện hình ảnh, xử lý ngôn ngữ tự nhiên, hay dự đoán xu hướng thị trường.
18. Overfitting (Quá khớp, hoặc quá khít)
Mô hình học quá sát dữ liệu huấn luyện, mất khả năng tổng quát hóa.
Overfitting là hiện tượng mô hình tìm được quá khớp với dữ liệu training. Việc quá khớp này có thể dẫn đến việc dự đoán nhầm nhiễu, và chất lượng mô hình không còn tốt trên dữ liệu test nữa. Dữ liệu test được giả sử là không được biết trước, và không được sử dụng để xây dựng các mô hình Machine Learning.
19. Underfitting (Chưa khớp)
Underfitting là hiện tượng khi mô hình xây dựng chưa có độ chính xác cao trong tập dữ liệu huấn luyện cũng như tổng quát hóa với tổng thể dữ liệu. Khi hiện tượng Underfitting xảy ra, mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu mới vì nó thiếu khả năng tìm hiểu các mối quan hệ phức tạp.
Trong giao dịch thuật toán, có thể dẫn đến các quyết định đầu tư không hiệu quả vì mô hình không đủ khả năng phân tích và phản ứng với các tín hiệu thị trường phức tạp. Điều này có thể khiến các chiến lược giao dịch dựa trên mô hình này bỏ lỡ những cơ hội lớn hoặc không tránh được rủi ro thị trường.
20. Predictive Analytics (Phân tích dự đoán)
Sử dụng dữ liệu để dự báo tương lai, như dự đoán xu hướng thị trường.
21. Random Forest (Rừng ngẫu nhiên)
Kết hợp nhiều cây quyết định * để tăng độ chính xác, như lấy ý kiến đám đông.
22. Regression Analysis (Phân tích hồi quy)
Tìm mối quan hệ giữa các biến, như liên hệ giữa giá nhà và vị trí.
23. Reinforcement Learning (Học tăng cường)
Máy học thông qua phần thưởng và hình phạt, giống cách huấn luyện thú cưng.
24. Supervised Learning (Học có giám sát)
Học từ dữ liệu đã được gán nhãn, như nhận diện chó mèo từ ảnh có chú thích.
25. Time Series Analysis (Phân tích chuỗi thời gian)
Phân tích dữ liệu theo trình tự thời gian, như theo dõi biến động giá cổ phiếu.