Polars – Xử lý dữ liệu dạng bảng nhanh hơn với Polars

Polars – Xử lý dữ liệu dạng bảng nhanh hơn với Polars

Polars là một thư viện xử lý dữ liệu nhanh và hiệu quả trong Python được viết bằng ngôn ngữ Rust mới ra mắt gần đây. Với tính năng tăng tốc đáng kể so với thư viện pandas chúng ta đã biết, Polars cho phép xử lý các tập dữ liệu lớn mà không gặp…

Trích rút từ khóa tự động với học không giám sát

Trích rút từ khóa tự động với học không giám sát

Trích rút từ khóa là một trong những phương pháp đơn giản nhất giúp cho việc phân tích & khai thác các giá trị từ dữ liệu văn bản. Bài toán trích rút từ khóa (tiếng anh: Keyword Extraction hoặc Keyphare Extraction) là quá trình tự động trích rút ra các từ khóa/ thuật ngữ…

Phân loại văn bản tiếng Việt sử dụng machine learning
| |

Phân loại văn bản tiếng Việt sử dụng machine learning

Phân loại văn bản (Text classification) là một bài toán phổ biến trong xử lý ngôn ngữ tự nhiên (Nature language processing). Đối với phân loại văn bản tiếng Việt, sẽ có đôi chút khác biệt so với phân loại văn bản tiếng anh. Trong bài viết này, Lập Trình Không Khó (LTKK) sẽ hướng…

Beam search là gì? Vai trò của beam search trong NLP
| |

Beam search là gì? Vai trò của beam search trong NLP

Thuật toán beam search là một thuật toán tìm kiếm heuristic. Nó được sử dụng trong các bài toán như dịch máy, nhận dạng giọng nói, tóm tắt văn bản,… Đó là các bài toán NLP có đầu ra liên quan đến việc tạo một chuỗi các từ. Trong bài viết này, LTKK sẽ cùng…

Xử lý tiếng Việt trong Python
|

Xử lý tiếng Việt trong Python

This entry is part 28 of 29 in the series Python Không Khó

Trong bài chia sẻ này, Lập Trình Không Khó sẽ trình bày một số kiến thức liên quan tới việc xử lý tiếng Việt trong Python phục vụ cho các bài toán liên quan đến dữ liệu tiếng Việt (có dấu), đặc biệt là các bài toán trong lĩnh vực xử lý ngôn ngữ tự…

Tự xây dựng hệ thống chặn bình luận rác đơn giản
| |

Tự xây dựng hệ thống chặn bình luận rác đơn giản

Bình luận rác (bình luận spam url, bình luận có nội dung khiếm nhã, bình luận có chứa thông tin cá nhân nhạy cảm,…) là vấn đề mà các website từ tin tức, thương mại điện tử, rao vặt, blog,… phải đối mặt hàng ngày. Do đó, nếu chúng ta có thể xây dựng một…

Sách machine learning cơ bản
|

Sách machine learning cơ bản

Trong khoa học máy tính, học máy là một lĩnh vực luôn không ngừng phát triển với các ứng dụng ngày một mở rộng. Cuốn sách machine learning cơ bản “Understanding Machine Learning: From Theory to Algorithms”- tạm dịch: Machine Learning: Từ lý thuyết tới các thuật toán, sẽ cung cấp những kiến thức cần…

Hướng dẫn cài đặt SRILM trên Ubuntu
|

Hướng dẫn cài đặt SRILM trên Ubuntu

SRILM là bộ công cụ hỗ trợ đắc lực cho chúng ta trong việc xây dựng các mô hình ngôn ngữ thống kê (Language Model), bài toán này thường được sử dụng trong nhận dạng giọng nói(auto speech recognition), gắn thẻ(statistical tagging), phân đoạn(segmentation) và dịch máy(machine translation). Bài viết này Lập trình không khó…

Dự đoán ngôn ngữ lập trình với Machine learning
|

Dự đoán ngôn ngữ lập trình với Machine learning

Hôm nay trời thanh gió mát, Lập trình không khó sẽ cùng các bạn đi xây dựng một chương trình có thể dự đoán ngôn ngữ lập trình khi cung cấp cho nó code. Ý tưởng có vẻ khá to, nhưng đơn giản lắm. Cùng mình bắt tay vào triển khai nhé. Dự đoán ngôn…

Chương trình dự đoán ngôn ngữ như Google Dịch
|

Chương trình dự đoán ngôn ngữ như Google Dịch

Bài toán dự đoán ngôn ngữ Đã bao giờ bạn sử dụng ứng dụng Google dịch và để ý tới chương trình dự đoán ngôn ngữ của Google không? Nếu bạn không để ý hay chưa biết thì hãy xem ảnh chụp màn hình sau đây: Và sau khi bạn nhập thử một văn bản,…