Machine learning là gì? [Kiến thức cơ bản dễ hiểu]

Tác giả: Trần Thị Thúy
0 Bình luận

Machine learning dịch word by word có nghĩa là máy học hoặc học máy. Một thuật ngữ dùng trong công nghệ liên quan đến trí tuệ nhân tạo. Đọc kỹ hơn về định nghĩa này trong bài viết sau. Cùng tìm hiểu rõ machine learning là gì.

Contents

machine learning là gì1. Machine Learning là gì?

Machine learning là một nhánh của trí tuệ nhân tạo, thuộc về lĩnh vực nghiên cứu cho phép máy tính có khả năng cải thiện chính bản thân nó dựa trên dữ liệu mẫu (training data) hoặc dựa vào kinh nghiệm. Machine Learning có thể tự đoán và đưa ra quyết định máy và không cần được lập trình cụ thể.

Machine Learning được chia thành hai loại là prediction (dự đoán) và classification (phân loại). Thực thi một số bài toán máy như đoán giá nhà, giá xe hoặc phân loại chữ viết tay, nhận diện đồ vật,…Hiện nay khả năng tính toán của Machine Learning đã được nâng lên tầm cao mới khi có thể xử lý lượng dữ liệu khổng lồ. 

Thuật ngữ nâng cao của Machine Learning là Deep Learning, giúp máy tính thực thi những việc tưởng chừng như không thể trong quá khứ. Ví dụ như phân loại cả ngàn vật thể khác nhau trong ảnh, tự tạo chú thích ảnh, bắt chước giọng nói và chữ viết của con người, giao tiếp với con người. Thậm chí là sáng tác nghệ thuật như viết văn hoặc viết nhạc.

Xem thêm: Deep Learning là gì? Ứng dụng của Deep Learning [QUAN TRỌNG]

2. Quy trình làm việc với Machine Learning

Machine learning workflow nhắc đến quy trình làm việc với machine learning theo từng bước. Giống như sơ đồ dưới đây

mô hình hoạt động của machine learning

2.1. Data Collection – Thu thập dữ liệu

Trước khi “dạy” máy tính học bạn cần có một bộ dữ liệu, có thể lấy từ các nguồn đã được công bộ hoặc tự thu thập. Tuy nhiên nên lấy từ nguồn chính thống để máy có thể học chính xác với hiệu quả cao hơn.

2.2. Preprocessing – Xử lý trước khi quy trình bắt đầu

Bao gồm các công việc sau

  • Chuẩn hóa dữ liệu
  • Loại bỏ các thuộc tính không cần thiết
  • Gán nhãn dữ liệu 
  • Mã hóa một số đặc trưng
  • Trích xuất đặc trưng
  • Rút gọn dữ liệu nhưng vẫn đảm bảo kết quả

Trong cả quy trình bước này tốn thời gian nhất và tỷ lệ thuận với số lượng dữ liệu cần xử lý. Tổng thời gian thực hiện bước 1, 2 chiếm 70% triển khai machine learning.

2.3. Evaluating model – Đánh giá mô hình

Mô hình đã huấn luyện xong cần được đánh giá. Tùy vào mức độ đo để biết mô hình tốt hay không. Độ chính xác trên 80% được cho là tốt.

2.4. Improve – Cải thiện

Các mô hình không đạt chuẩn sẽ được “học” lại. Các bước 2 và 3 sẽ được lặp lại cho đến khi đạt kết quả như kỳ vọng. Muốn đạt hiệu quả cao thì mô hình phải được kiểm tra và điều chỉnh liên tục.

3. Một số khái niệm liên quan đến Machine Learning

3.1. Dataset

Dataset là tập dữ liệu chưa qua xử lý được thu thập ở bước data collection. Còn được gọi là data corpus hay data stock. Một dataset sẽ gồm nhiều data point.

3.2. Data point

Datapoint là điểm dữ liệu, biểu diễn cho một quan sát. Có nhiều đặc trưng và thuộc tính khác nhau. Data point chia làm numerical (dữ liệu số) và non-numerical (dữ liệu không phải là số). Data point hiển thị thành từng dòng biểu trưng cho một hoặc nhiều dữ liệu.

data point

3.3. Training data và test data

Training data dùng để huấn luyện cho mô hình. Test data dùng để dự đoán kết quả và đánh giá mô hình dữ liệu. Tỷ lệ chia giữa train và test là 8/2.

3.4. Model

Model là các mô hình dùng để training data dựa trên thuật toán được cài. Sau đó mô hình sẽ đưa ra được dự đoán hoặc quyết định về dữ liệu đã học.

 3.5. Features vector

Features vector hiểu là vector đặc trưng, biểu diễn cho một điểm dữ liệu trong dataset. Mỗi vector có n chiều, mỗi chiều là một đặc trưng dữ liệu số. Các mô hình chỉ có thể học được từ các vector đặc trưng này.

4. Phân loại Machine Learning

Cách phổ biến nhất để phân loại Machine learning là theo cách học. Chia thành

  • Supervised learning: học có giám sát
  • Unsupervised learning: học không giám sát

Ngoài ra còn phân theo độ chuyên sâu

  • Semi-supervised learning: học bán giám sát
  • Deep learning: học sâu (về một vấn đề nào đó)
  • Reinforce learning: học củng cố/tăng cường

4.1. Tìm hiểu về Unsupervised learning

Học không giám sát là cho máy tính học trên các dữ liệu không được dán nhãn. Thuật toán machine learning sẽ tự tìm ra sự tương quan giữa các dữ liệu trong mẫu. Mô hình hóa dữ liệu và tự hiểu về dữ liệu. Sau đó máy sẽ phân loại dữ liệu thành các lớp giống nhau dựa trên những gì đã được học hoặc giảm số chiều dữ liệu.

4.2. Tìm hiểu về Supervised learning

Ngược lại với học không giám sát là học có giám sát. Bạn sẽ gán nhãn cho dữ liệu. Mỗi đầu vào X sẽ có nhãn Y tương ứng.

Máy phân tích dữ liệu và phân loại dựa trên nhãn được gắn.

Xem thêm: Mã hóa thông tin là gì? Cách mã hóa thông tin [AN TOÀN] và [BẢO MẬT]

5. Ứng dụng của Machine Learning

Ví dụ trong dự báo thời tiết, người ta sẽ quan sát, ghi nhận dữ liệu thời tiết trong quá khứ để đưa ra các dự báo trong tương lai. Số lượng quan sát và dữ liệu là cực kỳ lớn. Con người không thể xử lý số dữ liệu khổng lồ này. Khi đó machine learning được áp dụng để dạy máy phân tích dữ liệu và đưa ra kết quả dự báo cho tương lai. Việc này nhanh và chính xác hơn.

Trên đây là ví dụ đơn giản về ứng dụng về machine learning. Thực tế, nó áp dụng trong tất cả các ngành nghề quan trọng hiện nay.

  • Thị giác máy tính
  • Xử lý ngôn ngữ máy
  • Mạng máy tính
  • Khoa học vũ trụ
  • Quảng cáo
  • Robotics
  • Hóa học
  • Tài chính – Ngân hàng
  • Công nghệ thông tin
  • Tự động hóa
  • Nông nghiệp
  • Sinh học

6. 9 hiểu lầm ngớ ngẩn về Machine Learning

Machine learning là một thuật ngữ rộng. Ở quy mô bài viết này chúng tôi không thể đưa cho bạn tất cả các kiến thức về nó. Bởi vì nó vẫn được các nhà khoa học công nghệ nghiên cứu và tìm hiểu hàng ngày. Nhưng có những lầm tưởng sau đây về machine learning mà bạn cần nhớ

  • Machine learning không phải AI. AI  là một mảng lớn bao gồm các lĩnh vực như tầm nhìn máy tính, robot và xử lý ngôn ngữ tự nhiên mà không bao gồm machine learning. Không phải lúc nào máy móc cũng sử dụng trí tuệ nhân tạo, thứ mà mọi người nghĩ có thể sẽ chiến đấu hoặc thậm chí tấn công loài người.
  • Không phải tất cả dữ liệu đều hữu ích
  • Không phải lúc nào bạn cũng cần nhiều data
  • Machine learning là một kỹ thuật chuyên ngành. Dù có nhiều mã nguồn mở dành riêng cho machine learning và cũng có cả trăm khóa học chỉ cách sử dụng nó. Nhưng không phải ai cũng có thể xây dựng một hệ thống machine learning.
  •  Không phải tất cả patterns trong data đều hữu ích
  • Không phải lúc nào Reinforcement learning cũng sẵn sàng để sử dụng
  • Machine learning có thiên vị vì chúng sao chép cả những sai lệch trong tệp dữ liệu
  • Machine learning không phải lúc nào cũng sử dụng cho mục đích tốt
  • Machine learning khó mà dần thay thế con người.

7. Lời kết

Machine learning là công nghệ có tính ứng dụng cực kỳ cao. Tiện ích cho đời sống phát triển của con người. Như phân tích nhận diện khuôn mặt, nhận diện ký tự quang học,… Ngành học machine learning cũng có cơ hội phát triển cực và nhu cầu việc làm cực lớn. Vì thế nếu bạn quan tâm đến công nghệ này thì rất nên học.

nhanhoa

+ Fanpage: https://www.facebook.com/nhanhoacom

+ Chỉ đường: https://g.page/nhanhoacom

+ Chương trình khuyến mãi mới nhất: https://nhanhoa.com/khuyen-mai.html

————————————————————

CÔNG TY TNHH PHẦN MỀM NHÂN HÒA

https://nhanhoa.com

Hotline: 1900 6680

Trụ sở chính: Tầng 4 – Tòa nhà 97-99 Láng Hạ, Đống Đa, Hà Nội

Tel: (024) 7308 6680 – Email: sales@nhanhoa.com

Chi nhánh TP. Hồ Chí Minh: 270 Cao Thắng (nối dài), Phường 12, Quận 10, Tp.HCM

Tel: (028) 7308 6680 – Email: hcmsales@nhanhoa.com

Chi nhánh Vinh – Nghệ An: Tầng 2 Tòa nhà Sài Gòn Sky, ngõ 26 Nguyễn Thái Học, phường Đội Cung, TP. Vinh, Nghệ An

Email: contact@nhanhoa.com

Bài viết liên quan

TRỤ SỞ CHÍNH HÀ NỘI

VĂN PHÒNG TP. HCM

CHI NHÁNH NGHỆ AN

Copyright © 2002 – 2021 Nhan Hoa Software Company. All Rights Reserved.
Công ty TNHH Phần mềm Nhân Hòa. Đại diện: Ông Hồ Trung Dũng
Giấy phép kinh doanh số: 0101289966 do Sở kế hoạch và Đầu tư Hà nội cấp ngày 19/09/2002