GIỚI THIỆU VÀ HƯỚNG DẪN XÂY DỰNG BỘ DỮ LIỆU CONVERT - CÔNG CỤ CONVERT TRUYỆN ĐA NHÂN

* Trong phần giới thiệu và hướng dẫn này, converttruyen.com có dẫn chứng một số cấu trúc dữ liệu từ phần mềm Quick Translator (QT) của bạn ngoctay tangthuvien để giúp các converter đã từng sử dụng QT dễ hình dung hơn.

Thứ tự chạy các bảng dữ liệu CONVERT: VĂN BẢN TIẾNG TRUNG->CỤM TỪ THAY THẾ->CỤM TỪ TÊN RIÊNG TRONG TRUYỆN->(CỤM TỪ TÊN CHUNG CỔ ĐẠI->CỤM TỪ TÊN CHUNG HIỆN ĐẠI)->CỤM TỪ CHỮ SỐ->CỤM TỪ MỚI->CỤM TỪ CHỨA CẤU TRÚC LUẬT NHÂN->CỤM TỪ HÁN VIỆT

CỤM TỪ TÊN CHUNG CỔ ĐẠI->CỤM TỪ TÊN CHUNG HIỆN ĐẠI có thể đảo ngược thứ tự chạy

-> VĂN BẢN TIẾNG TRUNG: Đoạn văn bản tiếng Trung, nội dung truyện tiếng Trung. Trong đoạn văn bản tiếng Trung có thể chứa các đoạn văn thừa, quảng cáo, lỗi chính tả. Vì vậy cần sử dụng bảng dữ liệu CỤM TỪ THAY THẾ để sửa, xóa.

-> Thay thế các cụm từ có trong bảng dữ liệu CỤM TỪ THAY THẾ (sửa lỗi sai, xóa đoạn văn bản thừa, quảng cáo trong VĂN BẢN TIẾNG TRUNG...)

-> Thay thế các NHÂN:
CỤM TỪ TÊN RIÊNG TRONG TRUYỆN
CỤM TỪ TÊN CHUNG CỔ ĐẠI + CỤM TỪ TÊN CHUNG HIỆN ĐẠI
CỤM TỪ CHỮ SỐ
CỤM TỪ CHỈ HÀNH ĐỘNG

-> Thay đổi vị trí các NHÂN trong câu văn dựa theo cấu trúc của các cụm từ có trong bảng dữ liệu CỤM TỪ CẤU TRÚC LUẬT NHÂN

-> Thay thế các cụm từ có trong bảng dữ liệu CỤM TỪ MỚI (cụm từ Vietphrase)

-> Thay thế các cụm từ có trong bảng dữ liệu CỤM TỪ HÁN VIỆT

CẤU TRÚC BẢNG DỮ LIỆU CONVERT
1. CỤM TỪ THAY THẾ
- Được sử dụng để sửa đổi văn bản gốc tiếng Trung
- Tương tự như file IgnoredChinesePhrases.txt của Quick Translator (QT)
- Chứa các cặp key=value
- Bảng dữ liệu của CỤM TỪ THAY THẾ
key=value
黑sè=黑色
鬼才爱=鬼#才爱
鬼才信=鬼#才信
高级别=高#级别
面sè=面色
那人道=那人#道
那么的=那么
那样的=那么
那样之=那么
那么之=那么
那般的=那么
那般之=那么
道魔龙=道#魔龙
道长长=道#长长
道长达=道#长达
道长拳=道#长拳
道法决=道#法决
道人影=道#人影
...
- CỤM TỪ THAY THẾ: không chỉ xóa, bỏ qua những cụm từ tiếng Trung bị sai, quảng cáo mà còn những cách dùng khác giúp tăng chất lượng nội dung bản convert.

- Trong quá trình convert (thêm, sửa, xóa cụm từ) converter có sẽ gặp phải một số trường hợp bên dưới:

Trường hợp 1:

- key: cụm từ gốc tiếng Trung bị sai

- value: cụm từ tiếng Trung được sửa lại

- Ví dụ:

+ Khi convert các bạn thỉnh thoảng sẽ gặp cụm từ 黑sè,面sè,xing格

+ Cụm từ 黑sè này chính là 黑色:màu đen

+ Cụm từ 面sè chính là 面色:sắc mặt

+ Cụm từ xing格 chính là 性格:tính cách

- Cách sửa

+ Thêm vào CỤM TỪ THAY THẾ 黑sè=黑色

+ Thêm vào CỤM TỪ THAY THẾ 面sè=面色

+ Thêm vào CỤM TỪ THAY THẾ xing格=性格

+ Không nên thêm 黑sè=màu đen vào trong CỤM TỪ MỚI, hoặc CỤM TỪ CHỈ MÀU SẮC

+ Không nên thêm 面sè=sắc mặt vào trong CỤM TỪ MỚI, hoặc CỤM TỪ CHỈ MÀU SẮC

+ Không nên thêm xing格=tính cách vào trong CỤM TỪ MỚI, hoặc CỤM TỪ CHỈ MÀU SẮC

Trường hợp 2:

- key: cụm từ gốc tiếng Trung chứa các NHÂN gây xung đột thuật toán cấu trúc luật nhân

- value: cụm từ tiếng Trung được thêm ký tự # để ngăn cách

- Trường hợp này các converter có thể sẽ gặp phải trong quá trình convert truyện, lúc đó các converter sẽ dễ hình dung hơn

- Ví dụ:

+ Đoạn văn: 全部落了下来

+ Đoạn văn trên tạm dịch là: "toàn bộ rơi xuống".

+ Đoạn văn trên tạm tách ra thành các từ, cụm từ là: 全:toàn, 部:bộ, 落:rơi, 下来:xuống, 全部:toàn bộ, 部落:bộ lạc, 落了下来:rơi xuống.

+ Trong đoạn văn trên, cụm từ 部落:bộ lạc, đây là cụm từ nằm trong nhân CỤM TỪ TÊN CHUNG.

+ Khi convert, có thể thuật toán convert sẽ ưu tiên dịch cụm từ 部落 thành "bộ lạc" trước.

+ Như vậy, khi convert, thuật toán sẽ dịch thành: "toàn bộ lạc xuống". Đoạn văn trên sẽ bị sai nghĩa.

+ Cách sửa: thêm ký tự # để ngăn cách: 全部#落了下来

+ Trong CỤM TỪ THAY THẾ sẽ có dòng: 全部落了下来=全部#落了下来

- Ví dụ:

+ Đoạn văn: 知道家中

+ Đoạn văn trên tạm tách ra thành các từ, cụm từ là: 知:biết, 家:nhà, 中:trong, 知道:biết, 道家:đạo gia và 家中:trong nhà.

+ Trong đoạn văn trên, cụm từ 道家:đạo gia, đây là cụm từ nằm trong nhân CỤM TỪ TÊN CHUNG.

+ Khi convert, có thể thuật toán convert sẽ ưu tiên dịch cụm từ 道家 thành "đạo gia".

+ Như vậy, khi convert, thuật toán sẽ dịch thành: "biết đạo gia trong". Đoạn văn trên sẽ bị sai nghĩa.

+ Cách sửa: thêm ký tự # để ngăn cách: 知道#家中

+ Trong CỤM TỪ THAY THẾ sẽ có dòng: 知道家中=知道#家中

- Ví dụ:

+ Đoạn văn: 全身上下

+ Đoạn văn trên tạm dịch là: "trên dưới toàn thân".

+ Đoạn văn trên tạm tách ra thành các từ, cụm từ là: 全:toàn, 身:thân, 上:trên, 下:dưới, 全身:toàn thân, 身上:trên người, và 上下:trên dưới.

+ Trong đoạn văn trên, cụm từ 身上:trên người, đây là cụm từ nằm trong nhân CỤM TỪ CHỈ VỊ TRÍ.

+ Khi convert, thuật toán convert sẽ ưu tiên dịch cụm từ 身上 thành "trên người".

+ Như vậy, khi convert, thuật toán sẽ dịch thành: "toàn trên người dưới". Đoạn văn trên sẽ bị sai nghĩa.

+ Cách sửa: thêm ký tự # để ngăn cách: 全身#上下

+ Trong CỤM TỪ THAY THẾ sẽ có dòng: 全身上下=全身#上下

- Ví dụ:

+ Đoạn văn: 在下一刻

+ Đoạn văn trên tạm dịch là: "ở một khắc sau".

+ Đoạn văn trên tạm tách ra thành các từ, cụm từ là: 在:ở, 下:dưới, 一:một, 刻:khắc,下一刻:một khắc sau.

+ Trong đoạn văn trên, cụm từ 在下:tại hạ, đây là cụm từ nằm trong nhân CỤM TỪ TÊN CHUNG.

+ Khi convert, thuật toán convert sẽ ưu tiên dịch cụm từ 在下 thành "tại hạ".

+ Như vậy, khi convert, thuật toán sẽ dịch thành: "tại hạ một khắc". Đoạn văn trên sẽ bị sai nghĩa.

+ Cách sửa: thêm ký tự # để ngăn cách: 在#下一刻

+ Trong CỤM TỪ THAY THẾ sẽ có dòng: 在下一刻=在#下一刻

Trường hợp 3:

- Trong đoạn văn gốc có thể chứa nhiều cụm từ có cùng nghĩa (theo cá nhân admin, mong nhận được góp ý) như:

+ 如此, 如此的, 这么, 这么的, 这样, 这样的, 这般, 这般的: những cụm từ này được dịch là "như vậy".

+ Với những cụm từ trên, ta thay thế tất cả các cụm từ trên thành 这么 (chỉ dùng một loại).

+ 那么, 那样, 那般, 那般的, 那么之, 那么的, 那样的: những cụm từ này được dịch là "như thế".

+ Tương tự với những cụm từ trên, ta thay thế tất cả các cụm từ trên thành 那么 (chỉ dùng một loại).

- Điều này giúp giảm bớt việc phải thêm quá nhiều các cụm từ có cùng nghĩa.

- Giảm dung lượng BỘ DỮ LIỆU CONVERT đồng nghĩa việc tăng tốc độ convert.

* Lưu ý: CỤM TỪ THAY THẾ được sử dụng để sửa đổi văn bản gốc tiếng Trung trước khi thay thế CỤM TỪ MỚI và CỤM TỪ CẤU TRÚC LUẬT NHÂN

Trường hợp 4: dùng để ngắt câu tiếng Trung

- Trường hợp này Admin cũng mới thử nghiệm nên cũng không thể diễn giải rõ ràng.

2. CỤM TỪ MỚI

- Có cấu trúc tương tự file Vietphrase.txt của Quick Translator (QT)

- Chứa các cặp key=value

- key: cụm từ tiếng Trung

- value: cụm từ tiếng Việt

- Thay thế cụm từ tiếng Trung sang tiếng Việt

- Theo mặc định người dùng sẽ sử dụng cùng với CỤM TỪ MỚI của hệ thống (ưu tiên thay thế CỤM TỪ MỚI của người dùng trước)3. CỤM TỪ HÁN VIỆT (được sử dụng để convert tên truyện, chương truyện sang Hán Việt)

- Chứa các cặp key=value

- key: cụm từ gốc chữ tiếng Trung

- value: cụm từ Hán Việt

- Giống như CỤM TỪ THAY THẾ, dùng để sửa cụm từ Hán Việt bị sai khi convert tên truyện hoặc chương truyện.

- Ví dụ:

+ Trong từ điển Hán Việt có những từ có 2 âm Hán Việt như:

重:trọng, trùng

长:trường, trưởng

难:nan, nạn

主:chủ, chúa

将:tương, tướng

沉:trầm, thẩm

...

Khi convert tên truyện hoặc chương truyện, chỉ lấy 1 âm Hán Việt đứng trước để convert. Do đó:

+ Cụm từ 重生 sẽ convert thành "trọng sinh". Đây là sai. Đúng phải là "trùng sinh".

+ Cách sửa: thêm cụm từ 重生=trùng sinh vào trong CỤM TỪ HÁN VIỆT+ Cụm từ 队长 sẽ convert thành "đội trường". Đây là sai. Đúng phải là "đội trưởng".

+ Cách sửa: thêm cụm từ 队长=đội trưởng vào trong CỤM TỪ HÁN VIỆT+ Cụm từ 长老 sẽ convert thành "trường lão". Đây là sai. Đúng phải là "trưởng lão".

+ Cách sửa: thêm cụm từ 长老=trưởng lão vào trong CỤM TỪ HÁN VIỆT+ Cụm từ 大将 sẽ convert thành "đại tương". Đây là sai. Đúng phải là "đại tướng".

+ Cách sửa: thêm cụm từ 大将=đại tướng vào trong CỤM TỪ HÁN VIỆT+ Cụm từ 大难 sẽ convert thành "đại nan". Đây là sai. Đúng phải là "đại nạn".

+ Cách sửa: thêm cụm từ 大难=đại nạn vào trong CỤM TỪ HÁN VIỆT+ Cụm từ 公主 sẽ convert thành "công chủ". Đây là sai. Đúng phải là "công chúa".

+ Cách sửa: thêm cụm từ 公主=công chúa vào trong CỤM TỪ HÁN VIỆT

...

4. CỤM TỪ CẤU TRÚC LUẬT NHÂN

- Tương tự với file LuatNhan.txt của Quick Translator (QT)

- Khác với QT:

+ Công cụ hỗ trợ convert truyện sử dụng nhiều NHÂN và nhiều loại NHÂN trong một câu với các ký tự đại diện ~,@,$,%,^,&,* (trong QT sử dụng {0} và chỉ có 1 NHÂN trong câu)

- Đây là những cụm từ cốt lõi quyết định việc nội dung sau khi convert có gần với bản edit nhất hay không.

- Trong một câu, có thể sẽ chứa 1 hoặc nhiều NHÂN, 1 hoặc nhiều loại NHÂN.

- CỤM TỪ CẤU TRÚC LUẬT NHÂN chứa các cặp key=value

- key: chứa cụm từ tiếng Trung (NGÔN NGỮ A) và các ký tự đại diện cho các NHÂN tương ứng.

- value: chứa cụm từ tiếng Việt (NGÔN NGỮ B) và các ký tự đại diện được đánh số thứ tự cho các NHÂN tương ứng.

- NHÂN: là một tập hợp các cụm từ có cùng dạng từ loại, vị trí, chức năng của NGÔN NGỮ A trong một câu với ký tự đại diện tương ứng với mỗi NHÂN.

- NHÂN được phân loại dựa theo kinh nghiệm khi convert chứ không hẳn là dựa vào ngữ pháp từ loại tiếng Trung

- Trừ đại từ nhân xưng, NHÂN nên là 1 cụm từ.

- Qua quá trình phân tích, NHÂN tạm được phân loại thành:

+ NHÂN 1 (ký tự đại diện là $): là tập hợp các cụm từ chỉ tên người, đại từ nhân xưng, địa danh, con vật, đồ vật.

NHÂN 1 được chia thành:

* CỤM TỪ TÊN CHUNG CỔ ĐẠI: tương tự file names.txt của Quick Translator (QT). Những cụm từ được dịch cho các truyện kiếm hiệp, huyền huyễn

* CỤM TỪ TÊN CHUNG HIỆN ĐẠI: tương tự file names.txt của Quick Translator (QT).

* CỤM TỪ TÊN RIÊNG TRONG TRUYỆN: tương tự file names2.txt của Quick Translator (QT), những cụm từ chứa tên riêng, tên nhân vật, địa danh... chỉ xuất hiện trong truyện, mỗi truyện sẽ có 1 file CỤM TỪ TÊN RIÊNG TRONG TRUYỆN riêng, được map tự động với truyện.

Trong trang convert sẽ cùng sử dụng CỤM TỪ TÊN CHUNG CỔ ĐẠI và CỤM TỪ TÊN CHUNG HIỆN ĐẠI nhưng sẽ có lựa chọn ưu tiên sử dụng CỤM TỪ TÊN CHUNG CỔ ĐẠI trước hay là CỤM TỪ TÊN CHUNG HIỆN ĐẠI trước.

*** Trong NHÂN 1 Admin đang xây dựng 1 tính năng tìm tên chung tự động theo quy luật nhất định (không phải tên riêng, tên nhân vật trong truyện) như sau:

* Admin có 1 bảng chứa HỌ tiếng Trung như sau

逍遥=Tiêu Diêu

慕容=Mộ Dung

王=Vương

孙=Tôn

苏=Tô

陈=Trần

张=Trương

赵=Triệu

钱=Tiền

吴=Ngô

李=Lý

柳=Liễu

周=Chu

...

Và 1 bảng Vietphrase chứa CHỨC DANH, CHỨC NGHIỆP (tạm gọi như vậy) mà có thể ghép được với HỌ như sau:

道友=đạo hữu

小子=tiểu tử

小友=tiểu hữu

前辈=tiền bối

仙子=tiên tử

师弟=sư đệ

师姐=sư tỷ

师祖=sư tổ

师叔=sư thúc

师妹=sư muội

师兄=sư huynh

师侄=sư chất

师伯=sư bá

执事=chấp sự

掌柜=chưởng quỹ

掌门=chưởng môn

兄=huynh

...

* Tính năng này sẽ tự động phát hiện tên chung trong chương, đoạn văn mà người dùng convert khi mà có từ, cụm từ trong bảng HỌ đứng liền từ, cụm từ trong bảng CHỨC DANH.

* Ví dụ trong chương hoặc đoạn văn có các cụm từ 张道友 (Trương đạo hữu), 李掌门 (Lý chưởng môn), 王执事 (Vương chấp sự),... Bình thường Admin hay cho những cụm từ trên vào CỤM TỪ TÊN CHUNG. Nhưng với họ Trung Quốc khoảng mấy trăm, chức danh cũng khoảng khoảng mấy trăm nữa. Nếu mà xáo trộn ghép vào với nhau thì sẽ sinh ra khoảng mấy chục nghìn cụm từ. Điều này gây ảnh hưởng đến tốc độ convert, lưu trữ dữ liệu và quan trọng nhất là người dùng sẽ phải mất công thêm các cụm từ đó vào dữ liệu.

Khi có tính năng này, các cụm từ trên sẽ được tìm ra tự động và lưu vào bộ nhớ khi convert và thuật toán convert xử lý những cụm từ này giống như CỤM TỪ TÊN CHUNG. Người dùng sẽ không phải tốn thời gian tìm và lưu những cụm từ như vậy nữa.

Tính năng này thích hợp với các truyện cổ đại hơn. Các truyện xưng hô hiện đại sau này có thời gian sẽ phát triển

*** converttruyen.com phát triển rất nhiều tính năng tìm ghép cụm từ tự động:
CỤM TỪ TÊN CHUNG = TỪ ĐƠN CHỈ MÀU SĂC ghép với TỪ ĐƠN CHỈ ĐỒ VẬT (白衣=áo trắng, 黑盒=hộp đen)
CỤM TỪ TÊN CHUNG = TỪ ĐƠN CHỈ CON VẬT ghép với từ 血 (máu): 猪血: máu lợn, 鸭血: máu vịt...
..... .....

*** Admin muốn khi đã xây dựng được bộ dữ liệu CỤM TỪ CẤU TRÚC LUẬT NHÂN tương đối đầy đủ thì khi convert chỉ cần tìm tên riêng, tên nhân vật trong truyện là có thể có được 1 bản convert tương đối dễ hiểu.

*** Tính năng phân tích, tìm tên riêng, tên nhân vật trong truyện Admin đã làm, có tìm được tên riêng, tên nhân vật nhưng cũng có nhiều cụm từ rác. Thời gian phân tích, tìm kiếm cũng khá lâu. Cho nên chỉ có thể cho những cụm từ tìm được này vào gợi ý là các cụm từ có thể là tên riêng, tên nhân vật trong truyện. Chứ không thể tự động như trên.


+ NHÂN 2: CỤM TỪ CHỮ SỐ (ký tự đại diện là &): tập hợp các cụm từ chỉ chữ số. Mặc định CỤM TỪ CHỮ SỐ của người dùng sẽ sử dụng cùng với cả của hệ thống, nhưng sẽ ưu tiên cụm từ của người dùng trước. Dữ liệu CỤM TỪ CHỮ SỐ của hệ thống đã có sẵn từ số 2 đến số 9999, điều này giúp người dùng không phải thêm dữ liệu nhiều.

Trong CỤM TỪ CHỮ SỐ của hệ thống, do trước đây Admin làm sinh ra tự động nên có những cụm từ chưa được đúng theo cách đọc trong tiếng Việt:

VD số 34: đọc là ba mươi tư nhưng trong cụm từ của hệ thống đọc là ba mươi bốn

Cái này hệ thống chưa có thời gian sửa nên cứ để tạm như vậy. Các bạn có thể thêm cụm từ của các bạn với nghĩa đọc đúng vì hệ thống sẽ ưu tiên sử dụng cụm từ của các bạn trước.


+ NHÂN 3: CỤM TỪ CHỈ MÀU SẮC (ký tự đại diện là ^) như 青色 màu xanh, 紫色 màu tím, ...

+ NHÂN 4: CỤM TỪ CHỈ VỊ TRÍ (ký tự đại diện là *) như 山上 trên núi, 身上 trên người, 手中 trong tay, 脚下 dưới chân, 城内 trong thành, 脸上 trên mặt, 身后 đằng sau, ...

+ NHÂN 5: CỤM TỪ CHỈ TÍNH CHẤT (ký tự đại diện là %): 强大=mạnh mẽ, 弱小=yếu đuối, 险峻=hiểm trở, 英俊=anh tuấn, 俊秀=tuấn tú, 壮丽=tráng lệ (phân loại theo cá nhân ADMIN).

+ NHÂN 6: CỤM TỪ CHỈ HÀNH ĐỘNG (ký tự đại diện là @):

Một số cụm từ chỉ hành động mà hệ thống phân loại:

收获 = thu hoạch
收养 = thu dưỡng
设计 = thiết kế
请教 = thỉnh giáo
配合 = phối hợp
配制 = phối chế
估摸 = phỏng đoán
反应 = phản ứng
反对 = phản đối
反击 = phản kích
反抗 = phản kháng
反攻 = phản công

- Thực tế hệ thống converttruyen.com phân loại ra rất nhiều NHÂN, mỗi khi đọc và convert, thấy có các cụm từ nào có cùng đặc điểm, vị trí trong câu giống nhau thì sẽ tạo ra 1 NHÂN tương ứng với những cụm từ đó.

- Ví dụ về 1 loại NHÂN cũng là những cụm từ chỉ hành động:
看天=nhìn trời
洗衣=giặt áo

Các bạn có thể thấy: từ đứng trước là động từ, từ đứng sau là danh từ.

Mình phân loại những cụm từ như vậy vào bảng CỤM TỪ CHỈ HÀNH ĐỘNG 2 (với ký tự đại diện của những cụm từ này là dấu ?)

- Hãy lưu ý KÝ TỰ ĐẠI DIỆN của các NHÂN

- Với đại đa số người dùng đăng ký, đăng nhập vào hệ thống

- Sẽ chỉ được cấp quyền thêm sửa xoá các NHÂN: CỤM TỪ TÊN CHUNG CỔ ĐẠI, CỤM TỪ TÊN CHUNG HIỆN ĐẠI, CỤM TỪ TÊN RIÊNG TÊN NHÂN VẬT TRONG TRUYỆN, CỤM TỪ CHỮ SỐ

- Sẽ chỉ được cấp quyền thêm sửa xoá các cụm từ: CỤM TỪ CHỨA CẤU TRÚC LUẬT NHÂN, CỤM TỪ MỚI, CỤM TỪ THAY THẾ, CỤM TỪ HÁN VIỆTCác cách phân loại trên chỉ là Admin dựa theo kinh nghiệm trong quá trình convert mà không theo ngữ pháp tiếng Trung để xây dựng bộ dữ liệu convert theo ý bản thân (mong các bạn không ném đá)

Tại sao CỤM TỪ CHỈ MÀU SẮC (ký tự đại diện là ^) cũng là danh từ mà lại tách ra làm 1 NHÂN khác mà không cho vào CỤM TỪ TÊN CHUNG (ký tự đại diện là $)

Ví dụ:
Bảng CỤM TỪ CẤU TRÚC LUẬT NHÂN:
$的衣=quần áo của $1
^的衣=quần áo ^1
...

Bảng CỤM TỪ TÊN CHUNG:
道友=đạo hữu
...

Bảng CỤM TỪ CHỈ MÀU SẮC:
紫色=màu tím
...

Dựa vào bảng CỤM TỪ CẤU TRÚC LUẬT NHÂN:
Câu văn 道友的衣 sẽ được dịch thành: quần áo của đạo hữu
Câu văn 紫色的衣 sẽ được dịch thành: quần áo màu tím

Nếu để cụm từ 紫色=màu tím trong CỤM TỪ TÊN CHUNG, lúc đó cụm từ 紫色 sẽ sử dụng ký tự đại diện là $
Câu văn 紫色的衣 sẽ được dịch thành: quần áo của màu tím

NHÂN được phân loại dựa theo đặc điểm, vị trí, cách dịch cụm từ trong câu.

Trong tiếng Trung, có những cụm từ được sử dụng như là cụm từ chỉ hành động hoặc danh từ chỉ người.
Cụm từ 统领=thống lĩnh có thể cho vào CỤM TỪ TÊN CHUNG hoặc CỤM TỪ CHỈ HÀNH ĐỘNG
Vì vậy, mình phân loại những cụm từ như vậy thành 1 NHÂN khác là CỤM TỪ DANH ĐỘNG TỪ nhưng khi dịch có những câu vẫn bị sai nghĩa.


Về cơ bản các bạn có thể chỉ dùng nhân TÊN CHUNG CỔ ĐẠI (giống names.txt của QT), TÊN RIÊNG, TÊN NHÂN VẬT TRONG TRUYỆN (giống names2.txt của QT)

Admin có thể xây dựng thuật toán convert với rất nhiều NHÂN và nhiều loại NHÂN (không chỉ có mấy loại NHÂN ở trên)

Chúng ta phân loại cụm từ tiếng Trung thành các NHÂN càng nhiều, càng chi tiết thì bảng dữ liệu CỤM TỪ CHỨA CẤU TRÚC LUẬT NHÂN sẽ càng nhẹ khi mà trong bảng dữ liệu CỤM TỪ CHỨA CẤU TRÚC LUẬT NHÂN của chúng ta không còn chứa những cụm từ là NHÂN ở trong đó (phần này nghe có vẻ khó hiểu).

5. Ví dụ về CỤM TỪ CẤU TRÚC LUẬT NHÂN

Nội dung CỤM TỪ TÊN CHUNG ($) như sau:

洞府=động phủ

宝物=bảo vật

他=hắn

山洞=hang núi

Nội dung CỤM TỪ CHỮ SỐ (&) (các cụm từ chỉ chữ số từ 2-9999)

百=trăm

Nội dung CỤM TỪ DANH ĐỘNG TỪ (@) như sau:

隐蔽=ẩn nấp

Nội dung CỤM TỪ CHỈ VỊ TRÍ (*) như sau:

身上=trên người

VD1:

- 洞府里的宝物: bảo vật bên trong động phủ.

- Thay thế CỤM TỪ TÊN CHUNG bằng KÝ TỰ ĐẠI DIỆN $.

- Thêm $里的$=$2 bên trong $1 vào trong CỤM TỪ CẤU TRÚC LUẬT NHÂN

+洞府($): vị trí thứ 1

+宝物($): vị trí thứ 2

- Trong phần tiếng Trung chỉ cần thay NHÂN bằng KÝ TỰ ĐẠI DIỆN tương ứng với cái NHÂN đó.

- Trong phần tiếng Việt phải xác định vị trí để sắp xếp vị trí mà cái NHÂN đó xuất hiện trong câu bằng cách đánh số vào KÝ TỰ ĐẠI DIỆN tương ứng với cái NHÂN đó.

VD2:

- 离他约百余里的一个隐蔽的山洞=một cái hang núi ẩn nấp cách hắn ước chừng hơn trăm dặm (tạm dịch).

- Trong phần tiếng Trung, thay các NHÂN bằng các KÝ TỰ ĐẠI DIỆN tương ứng với cái NHÂN đó.

- Trong phần tiếng Việt, sắp xếp vị trí của NHÂN bằng cách đánh số vào KÝ TỰ ĐẠI DIỆN tương ứng với cái NHÂN đó.

- 离$约&余里的一个@的$=một cái $4 @3 cách $1 ước chừng hơn &2 dặm

+他($): vị trí thứ 1

+百(&): vị trí thứ 2

+隐蔽(@): vị trí thứ 3

+山洞($): vị trí thứ 4

VD3:

- 他身上的秘密 - Bí mật trên người hắn

- Trong phần tiếng Trung, thay các NHÂN bằng các KÝ TỰ ĐẠI DIỆN tương ứng với cái NHÂN đó.

- Trong phần tiếng Việt, sắp xếp vị trí của NHÂN bằng cách đánh số vào KÝ TỰ ĐẠI DIỆN tương ứng với cái NHÂN đó.

- $*的秘密=bí mật *2 $1

+他($): vị trí thứ 1

+身上(*): vị trí thứ 2

=> Như vậy, chúng ta đã gọi là tạm đi qua phần LÝ THUYẾT (Nếu có gì mới, AMIND sẽ cập nhật trong đây). Nếu là mới sử dụng, các bạn chỉ cần quan tâm đến CỤM TỪ MỚI, CỤM TỪ CHỨA CẤU TRÚC LUẬT NHÂN, NHÂN là gì, cách sử dụng NHÂN trong CỤM TỪ CHỨA CẤU TRÚC LUẬT NHÂN.

6. Phần THỰC HÀNH các bạn xem những video hướng dẫn để biết cách:

- Tìm truyện theo tên Hán Việt với hàng chục nghìn truyện trên uukanshu và 630shu

- Thêm, sửa, xoá trong các cụm từ.

- Bật/tắt tính năng re-convert

- Bật tắt tính năng tự động chuyển các NHÂN thành KÝ TỰ ĐẠI DIỆN tương ứng. Cái phần này Admin thấy khá tiện lợi nên giải thích qua luôn:

+ Khi các bạn thêm cụm từ 他身上的秘密 vào trong CỤM TỪ CẤU TRÚC LUẬT NHÂN

+ Trong cụm từ trên, nếu từ 他 có trong nhân CỤM TỪ TÊN CHUNG (ký tự đại diện là $), nếu cụm từ 身上 có trong nhân CỤM TỪ CHỈ VỊ TRÍ (ký tự đại diện là *)

+ Đầu tiên, các bạn copy cụm từ 他身上的秘密 vào ô tiếng Trung.

+ Bình thường các bạn sẽ phải thay thế thủ công trong ô tiếng Trung thành $*的秘密

+ Nhưng với tính năng này, cụm từ 他身上的秘密 sẽ được tự động chuyển thành $*的秘密.

+ Tự động chọn lưu vào CỤM TỪ CẤU TRÚC LUẬT NHÂN

- Tham khảo vietphrase từ CỤM TỪ MỚI của các bạn

- Tra từ điển HVDICT

- Tự động kiểm tra sự tồn tại của từ, cụm từ

- Tự động hiển thị Hán Việt của từ, cụm từ