Từ điển Thuật ngữ Cơ bản về Big Data (Big Data Glossary)
Published on: July 16, 2023
Last updated: July 07, 2025 Xem trên toàn màn hình
Last updated: July 07, 2025 Xem trên toàn màn hình



- 03 Nov 2022
BAU (Business-As-Usual) là gì? 1308
- 01 Nov 2023
Lệnh thay đổi kỹ thuật (Engineering Change Order - ECO) là gì? 1092
- 03 May 2019
Business Rule là gì? 780
- 01 Nov 2021
Phân tích quy trình hiện tại (AS-IS) là gì? 624
- 01 Feb 2023
Information Radiator là gì? 537
- 05 Jan 2024
Value-Added Distributors (VAD) là gì? 530
- 09 Jan 2024
Domain Knowledge là gì? Ưu và nhược điểm? 428
- 01 Dec 2022
Business Critical là gì? 372
- 01 Nov 2022
Like for like là gì 366
- 28 Dec 2023
"Watered-down version" và "Stripped-down version" là gì? 347
- 02 Jan 2024
Domain Engineering là gì? 322
- 01 Jan 2024
Phân tích tổ hợp (Cohort Analysis) là gì? 320
- 29 May 2022
Templafy là gì? Tại sao nói Templafy là nền tảng tài liệu thế hệ mới? 285
- 08 Dec 2023
Resource Leveling là gì? 280
- 21 Jan 2022
SSO (Single Sign On) là gì? Bạn đã hiểu đúng và đẩy đủ vè chìa khóa thông minh SSO? 278
- 01 May 2021
Unit Test là gì? 276
- 02 Nov 2023
"State-of-the-art product" là gì? 247
- 08 Dec 2022
Phân biệt Cookbook, In a nutshell và Dummies 222
- 07 Dec 2022
Lean Software Development là gì? 216
- 11 Dec 2022
Sustaining Engineering là gì? 210
- 22 Nov 2023
Phân biệt tư duy hệ thống khác với tư duy thiết kế 185
- 05 Mar 2024
[Học tiếng Anh] "Go with caveats" là gì? 183
- 24 Mar 2023
Mô hình kinh doanh Open-Core là gì? 164
- 06 Dec 2023
Loại phần mềm "fire-and-forget" là gì? 151
- 14 Dec 2022
Phương pháp kiểm tra Fagan Inspection là gì? 139
- 01 Dec 2023
Microsoft Power Apps là gì? 121
- 09 Dec 2023
Phần mềm Best-of-class là gì? 119
- 01 Nov 2021
Knowldge Base là gì? 110
- 04 Mar 2025
So sánh các giải pháp Sales Loft, Power BI và Salesforce 38
Big Data – hay Dữ liệu lớn – không chỉ đơn thuần là lượng dữ liệu khổng lồ mà còn liên quan đến tốc độ xử lý, tính đa dạng và giá trị khai thác được từ dữ liệu. Để giúp bạn dễ dàng tiếp cận, dưới đây là bảng tổng hợp các thuật ngữ quan trọng nhất trong lĩnh vực này.
English Term (with brief explanation) |
Tiếng Việt & Giải thích |
Big Data (large-scale data collections) | Dữ liệu lớn – Tập hợp dữ liệu cực lớn và phức tạp, vượt khả năng xử lý của phần mềm truyền thống. |
Volume (amount of data) | Khối lượng – Chỉ số đo lượng dữ liệu được tạo ra, thường tính bằng TB hoặc PB. |
Velocity (speed of data processing) | Tốc độ – Tốc độ tạo, truyền và xử lý dữ liệu gần như theo thời gian thực. |
Variety (different types of data) | Đa dạng – Dữ liệu đến từ nhiều nguồn và nhiều định dạng như văn bản, hình ảnh, video… |
Veracity (data accuracy and trust) | Độ tin cậy – Mức độ chính xác, nhất quán và đáng tin cậy của dữ liệu. |
Value (usefulness of data) | Giá trị – Dữ liệu chỉ có ý nghĩa khi được phân tích và tạo ra lợi ích cho tổ chức. |
Structured Data (organized, table-based data) | Dữ liệu có cấu trúc – Dữ liệu được sắp xếp theo hàng, cột như trong cơ sở dữ liệu quan hệ. |
Unstructured Data (free-form data) | Dữ liệu phi cấu trúc – Dữ liệu không theo định dạng cố định, ví dụ: văn bản, video, mạng xã hội. |
Semi-structured Data (partially organized) | Dữ liệu bán cấu trúc – Có tổ chức nhưng không hoàn toàn theo bảng biểu, ví dụ: XML, JSON. |
Data Lake (raw data storage system) | Hồ dữ liệu – Kho lưu trữ dữ liệu thô với nhiều định dạng khác nhau, phục vụ phân tích sau này. |
Data Warehouse (structured data storage) | Kho dữ liệu – Hệ thống lưu trữ dữ liệu có cấu trúc, hỗ trợ truy vấn và báo cáo hiệu quả. |
Data Freezing (locking data to prevent changes) | Đóng băng dữ liệu – Hành động cố định dữ liệu tại một thời điểm cụ thể để ngăn thay đổi hoặc chỉnh sửa. Thường được sử dụng trong các tình huống như lưu trữ hồ sơ pháp lý, chuẩn bị báo cáo tài chính hoặc phân tích số liệu lịch sử. |
ETL (Extract, Transform, Load) (data pipeline process) | Trích xuất – Biến đổi – Tải – Quy trình lấy dữ liệu từ nguồn, xử lý và đưa vào kho dữ liệu. |
Hadoop (open-source big data framework) | Hệ thống mã nguồn mở giúp lưu trữ và xử lý dữ liệu lớn theo cách phân tán. |
MapReduce (parallel data processing model) | Mô hình lập trình cho phép xử lý dữ liệu lớn song song trên nhiều máy tính. |
Spark (fast in-memory data engine) | Apache Spark – Công cụ xử lý dữ liệu nhanh hơn MapReduce, hỗ trợ cả xử lý theo lô và thời gian thực. |
NoSQL (non-relational database systems) | Cơ sở dữ liệu phi quan hệ – Không dùng bảng như SQL, lưu trữ linh hoạt, phù hợp cho dữ liệu lớn. |
Elastic Database (scalable and flexible database architecture) | Cơ sở dữ liệu co giãn – Một kiến trúc cơ sở dữ liệu có thể tự động mở rộng hoặc thu nhỏ tài nguyên tùy theo nhu cầu sử dụng, giúp tiết kiệm chi phí và đảm bảo hiệu suất. Thường áp dụng trong môi trường điện toán đám mây. |
Real-time Processing (instant data handling) | Xử lý thời gian thực – Dữ liệu được xử lý ngay khi được sinh ra, giúp phản hồi nhanh. |
Batch Processing (processing in chunks) | Xử lý theo lô – Xử lý dữ liệu theo nhóm lớn, thường được lên lịch định kỳ. |
Data Mining (pattern discovery in data) | Khai phá dữ liệu – Phát hiện mẫu, xu hướng, tri thức từ dữ liệu lớn. |
Machine Learning (algorithmic learning from data) | Học máy – Máy tính học từ dữ liệu để đưa ra dự đoán hoặc quyết định. |
Predictive Analytics (forecasting future trends) | Phân tích dự đoán – Sử dụng dữ liệu hiện tại để dự báo hành vi hoặc xu hướng tương lai. |
Data Governance (policies for data control) | Quản trị dữ liệu – Các chính sách và quy trình đảm bảo tính toàn vẹn, bảo mật và tuân thủ. |
Data Quality (data accuracy and completeness) | Chất lượng dữ liệu – Mức độ chính xác, đầy đủ, nhất quán và phù hợp của dữ liệu. |
Scalability (ability to grow efficiently) | Khả năng mở rộng – Hệ thống có thể xử lý nhiều dữ liệu hơn mà không bị giảm hiệu suất. |
In-memory Computing (data processed in RAM) | Điện toán trong bộ nhớ – Dữ liệu được xử lý trực tiếp trong RAM giúp tăng tốc đáng kể. |
Data Visualization (graphical data representation) | Trực quan hóa dữ liệu – Biểu diễn dữ liệu bằng biểu đồ, đồ họa để dễ hiểu và phân tích hơn. |
Kết luận
🚀Việc nắm vững các thuật ngữ cơ bản trong Big Data sẽ giúp bạn:
-
Hiểu được cách các công nghệ dữ liệu hoạt động,
-
Giao tiếp tốt hơn với đồng nghiệp kỹ thuật,
-
Chuẩn bị nền tảng cho các công việc liên quan đến dữ liệu.
Nếu bạn muốn tiếp tục tìm hiểu chuyên sâu về khoa học dữ liệu (data science), trí tuệ nhân tạo (AI) hay phân tích kinh doanh (business analytics), thì việc làm chủ bộ từ vựng này là bước khởi đầu không thể bỏ qua.
[{"displaySettingInfo":"[{\"isFullLayout\":false,\"layoutWidthRatio\":\"\",\"showBlogMetadata\":true,\"showAds\":true,\"showQuickNoticeBar\":true,\"includeSuggestedAndRelatedBlogs\":true,\"enableLazyLoad\":true,\"quoteStyle\":\"1\",\"bigHeadingFontStyle\":\"1\",\"postPictureFrameStyle\":\"1\",\"isFaqLayout\":false,\"isIncludedCaption\":false,\"faqLayoutTheme\":\"1\",\"isSliderLayout\":false}]"},{"articleSourceInfo":"[{\"sourceName\":\"\",\"sourceValue\":\"\"}]"},{"privacyInfo":"[{\"isOutsideVietnam\":false}]"},{"tocInfo":"[{\"isEnabledTOC\":false,\"isAutoNumbering\":false,\"isShowKeyHeadingWithIcon\":false}]"},{"termSettingInfo":"[{\"showTermsOnPage\":true,\"displaySequentialTermNumber\":true}]"}]
Nguồn
{content}