準化:2025 Revision/Principle

Nguyên tắc lựa chọn chữ Hán Nôm chuẩn cho 500 chữ có tần suất cao nhất

Nguyên tắc tổng thể: Đối với các chữ Hán Nôm nằm trong top 1-500 theo thứ tự tần suất xuất hiện, yếu tố cốt lõi để xác định hình thể chữ tiêu chuẩn là tần suất sử dụng trong lịch sử, về nguyên tắc sẽ chọn hình thể có tần suất sử dụng cao nhất làm chữ tiêu chuẩn. Quy tắc lựa chọn cụ thể như sau:

Thiết lập cơ bản

Cấu thành kho dữ liệu: Tự Điển Chữ Nôm Dẫn Giải (DG), Tự Điển Chữ Nôm Trích Dẫn (TD), Truyện Kiều (các bản 1866, 1870, 1871, 1872, 1902) và Tự Đức Thánh Chế Tự Học Giải Nghĩa Ca (5Tk+Td). Hệ số trọng số của ba kho dữ liệu lần lượt là 48,6%, 33,3% và 18,1%.
Định nghĩa nhóm chữ: Là tập hợp các hình thể chữ có cùng chữ chính thể, cùng cấu trúc và bộ phận, chỉ khác nhau về vị trí một hoặc một số bộ phận. Ví dụ: “𬁖” và “𣋀” tạo thành một nhóm chữ.

Bước 1: Sàng lọc nhóm chữ ứng viên

- Thiết lập đường cơ sở: Đối với các chữ nằm trong top 1-500, chỉ những chữ có tần suất đạt từ 2/3 tần suất cao nhất trong lịch sử trở lên mới được đưa vào danh sách ứng viên tiêu chuẩn. - Loại bỏ các hình thể không hợp lệ: Bao gồm các chữ không có mã Unicode, chữ đa nghĩa gây nhầm lẫn, chữ có số nét quá nhiều, hoặc chữ có cấu trúc cực kỳ không hài hòa.

Bước 2: Xác định nhóm chữ tiêu chuẩn

Nếu sau khi loại bỏ các nhóm chữ không hợp lệ mà trên đường cơ sở không còn nhóm chữ nào, thì hạ ngưỡng xuống mức thứ hai (tần suất đạt từ 1/3 tần suất cao nhất trở lên); nếu vẫn không có nhóm chữ nào, mở rộng ra toàn bộ phạm vi. Trong phạm vi ứng viên xác định, ưu tiên chọn hình thể giống nhất với hình thể không hợp lệ đã bị loại (ở đây “giống nhất” nghĩa là giữ được toàn bộ hoặc bộ phận cốt lõi của chữ bị loại, dễ liên tưởng đến chữ bị loại). Nếu có nhiều hình thể cùng mức độ tương đồng, sử dụng bảng điểm (xem phía sau) để đánh giá định lượng, chọn nhóm chữ có điểm cao nhất làm tiêu chuẩn.
Nếu sau khi loại bỏ các nhóm chữ không hợp lệ mà trên đường cơ sở chỉ còn một nhóm chữ, thì trực tiếp chọn nhóm chữ đó.
Nếu sau khi loại bỏ các nhóm chữ không hợp lệ mà trên đường cơ sở còn nhiều hơn một nhóm chữ, thì trước tiên loại bỏ chữ gốc (tức ưu tiên chữ phân hóa. Ví dụ: “𣾼” là chữ phân hóa của “越”, “𡥵” là chữ phân hóa của “昆”); nếu sau khi loại bỏ chữ gốc vẫn còn nhiều nhóm chữ, thì sử dụng bảng điểm để đánh giá định lượng và lựa chọn.

Bước 3: Ưu tiên lựa chọn trong nhóm chữ (nếu áp dụng)

Tức là sau khi xác định được nhóm chữ tiêu chuẩn, tiến hành so sánh lựa chọn giữa các hình thể trong nhóm.
Nguyên tắc so sánh: Ưu tiên hình thể có tần suất sử dụng cao hơn.