*


2. Corpus

2.1 kháiniệm về Corpus

Corpus là một trong những dữ liệu tập hợp những văn bản,ngôn ngữ đã có được số hoá. Cách dịch thường thì ở nước ta là “kho ngữ liệu”. Lấy một ví dụ vềcorpus như “tuyển tập các tác phẩm của nam Cao”, tuyệt “tuyển tập ca tự của TrịnhCông Sơn”, …

 

Cáccorpus là 1 trong những tài nguyên đặc biệt trong NLP. Từ các corpus, ta rất có thể rút ra nhữngdữ liệu đặc biệt quan trọng sau :

1. Từ những corpus, ta có thể chiết suất 1cách tự động các qui tắc ngữ pháp “văn mạch tự do”.

Bạn đang xem: Corpora là gì

2. Từ những corpus hoàn toàn có thể tính toán được xácsuất, tần suất xuất hiện thêm của các từ.

 

Để bảo đảm an toàn tính đúng mực cho 2 kết luậntrên, corpus phải bảo đảm 1 số cách thức nhất định :

1. Tính đại diện thay mặt : những thành phần trongcorpus phải bao gồm tính phổ quát, đa dạng chủng loại và phong phú.

2. Size : form size của corpus cànglớn thì sẽ càng được reviews cao.

 

Dựa vào mục đích, biện pháp xây dựng corpus, ngườita chia corpus thành các loại sau :

1. Corpus thô (raw corpus): đơn giản và dễ dàng chỉ làtập hợp những dữ liệu mà không có xử lý gì thêm.

2. Corpus được thêm nhãn (tagged corpus) :các tài liệu trong corpus đang được xử lý như so sánh từ, so với cú pháp, gắnnhãn từ bỏ loại, …

3. Parallel Corpus : được thực hiện nhiềutrong vận dụng máy dịch.

 

Ngoài bí quyết chia trên, ta cũng hoàn toàn có thể chiacorpus theo cấu trúc của nó.

1. Corpus khác biệt : dữ liệu lấy vào 1 cáchngẫu nhiên, biệt lập và không rành mạch với nhau.

2. Corpus theo hạng mục : phụ thuộc vào các danhmục để chia dữ liệu trong corpus thành các nhóm.

Xem thêm: Cách Lập Bảng Biến Thiên Lớp 10 Hàm Số Bậc Nhất, Cách Vẽ Bảng Biến Thiên Lớp 10 Hàm Số Bậc Nhất

3. Corpus giống nhau : các dữ liệu trongcorpus có thể ở những nhóm thuộc lúc.

4. Corpus theo thời gian : những dữ liệu sắpxếp theo thời hạn thu thập và thời gian xuất hiện.

 

2.2Thống kê trong corpus

Khái niệm về n-gram : là tần suất xuất hiệncủa n kí từ bỏ ( hoặc trường đoản cú ) liên tục nhau bao gồm trong dữ liệu của corpus.

 

Với n = 1 và tính trên kí tự, ta tất cả thôngtin về tần suất xuất hiện nhiều nhất của các chữ cái. Điều này áp dụng để làmkeyboard : những phím hay xuất hiện nhất vẫn ở đều vị trí dễ áp dụng nhất.

 

Với n = 2, ta bao gồm khái niệm bigram. Ví dụ vớicác vần âm tiếng Anh, ‘th’,’he’,’in’,’an’,’er’ là những cặp kí tự giỏi xuất hiệnnhất. Ngoài ra, ta rất có thể biết thêm rằng sau kí tự ‘q’ thì phần lớn đều là kí tự‘u’.

 

Với n = 3, ta gồm trigram. Nhưng vày n càng lớnthì số trường hợp càng lớn yêu cầu thường bạn ta chỉ áp dụng với n = 1,2 hoặc đôilúc là 3. Lấy ví dụ với những kí tự tiếng Anh, giờ đồng hồ Anh thực hiện 26 kí tự, vậy cùng với n= 1 thì số trường thích hợp là 26, n = 2 thì số trường thích hợp là 26^2 = 676 ngôi trường hợp,n = 3 có 17576 ngôi trường hợp.

 

Bigram được áp dụng nhiều trong vấn đề phântích hình hài (từ, nhiều từ, trường đoản cú loại) cho các ngôn ngữ cực nhọc phân tích như tiếngViệt, giờ đồng hồ Nhật, giờ đồng hồ Trung, … dựa vào tần suất xuất hiện cạnh nhau của các từ,người ta đã tính phương pháp chia 1 câu thành các từ làm sao cho tổng bigram là cao nhấtcó thể. Cùng với thuật giải phân tích hình thái nhờ vào trọng số bé dại nhất, tín đồ tasử dụng n = 1 để xác minh tuần suất xuất hiện của những từ cùng tính trọng số.

 

Để đảm bảo tính thống kê đúng chuẩn đòi hỏicác corpus bắt buộc lớn và bao gồm tính đại diện thay mặt cao.