New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Amend "Perplexity" #1768
Amend "Perplexity" #1768
Conversation
glossary.md
Outdated
@@ -317,7 +317,7 @@ Nếu bạn cho rằng một từ không nên dịch ra tiếng Việt, bạn c | |||
| penalty | lượng phạt | [https://git.io/JvQAP](https://git.io/JvQAP) | | |||
| perceptron | perceptron | [https://git.io/JvohC](https://git.io/JvohC) | | |||
| performance | chất lượng | [https://git.io/JvQx4](https://git.io/JvQx4) | | |||
| perplexity (metric) | độ rối rắm | | | |||
| perplexity (metric) | độ hỗn độn | | |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
| perplexity (metric) | độ hỗn độn | | | |
| perplexity (metric) | độ lủng củng | [https://git.io/JfMuZ](https://git.io/JfMuZ) | |
mình vẫn nghĩ lủng củng
phù hợp hơn.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Mình thấy rối rắm nghe rất là không mượt. Hỗn độn như mình nói là cũng dễ bị nhầm.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
@ngcthuong anh có đề xuất nào không ạ?
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Mình dùng "độ tường minh", độ mạch lạc được không nhỉ?
Nhưng có vẻ nó sẽ ngược lại với từ trong bài.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
à đúng ạ, perplexity cần càng nhỏ càng tốt, nên dùng các từ mang nghĩa negative.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
MÌnh để suất bỏ từ "rắm" đi. Độ rối là ổn rồi.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Tương tự như "sparse represnetation", không cần phải dùng từ láy để thành ra "biểu diễn thưa ... thớt"
Anh em chốt cái này thôi. cc: @rootonchair @minhduc0711 @lkhphuc |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
từ này thì em không có strong opinion ạ
glossary.md
Outdated
@@ -317,7 +317,7 @@ Nếu bạn cho rằng một từ không nên dịch ra tiếng Việt, bạn c | |||
| penalty | lượng phạt | [https://git.io/JvQAP](https://git.io/JvQAP) | | |||
| perceptron | perceptron | [https://git.io/JvohC](https://git.io/JvohC) | | |||
| performance | chất lượng | [https://git.io/JvQx4](https://git.io/JvQx4) | | |||
| perplexity (metric) | độ rối rắm | | | |||
| perplexity (metric) | độ hỗn độn | | |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
| perplexity (metric) | độ hỗn độn | | | |
| perplexity (metric) | độ rối | | |
Theo đề xuất của anh Thướng, anh em vote nhé.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Em đưa thêm một số ví dụ tìm được trên Google cho thấy perplexity (PP) có thể coi là entropy trong NLP (độ hỗn độn trong ngữ cảnh NLP). Trong link, họ còn dẫn ra các slide từ bài giảng NLP của Stanford và các bài báo.
Độ rối và độ lủng củng em cảm nhận là thước đo về "độ không tốt" của câu @ngcthuong @cuongvng . Tuy nhiên, theo nguồn Wikipedia (mang tính hàn lâm đôi chút tuy không thấy ghi rõ nguồn) và cũng từ công thức perplexity, sẽ gặp trường hợp một câu có giá trị PP cao dù câu đó có hay tới đâu vì xác suất gặp trong lúc huấn luyện là rất thấp. Lúc này không thể nói là câu đó rối (rắm)
hay lủng củng
được chỉ vì probability thấp.
Có thể đó cũng là lý do mà các thầy ở BK và trường khác không sửa lại từ đó trong bài tập lớn cũng như luận văn của sv.
Intuitively, perplexity can be understood as a measure of uncertainty.
https://thegradient.pub/understanding-evaluation-metrics-for-language-models/
The perplexity is the exponentiation of the entropy
https://en.wikipedia.org/wiki/Perplexity
you can safely think of the concept of perplexity as entropy
https://towardsdatascience.com/perplexity-intuition-and-derivation-105dd481c8f3
NLP researcher says: "Thus, perplexity metric in NLP is a way to capture the degree of 'uncertainty' a model has in predicting (assigning probabilities to) some text. It is related to Shannon's Entropy. Lower the entropy (uncertainty), lower the perplexity."
https://www.quora.com/What-is-perplexity-in-NLP
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Em vote độ hỗn độn vì nếu có hiểu nhầm là entropy
thì cũng không quá phi lý. Trong khi đó, rất có thể những người làm NLP ở VN đọc thấy những đề xuất trên xuôi tai nhưng lại không lạ thì cx ổn lắm.
P/S: đặt nhầm chữ không, mong mn thông cảm :3
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Qua Google thì em thấy là entropy
có thể được giữ nguyên, hoặc được dịch định nghĩa là độ hỗn độn
(thi thoảng thấy độ hỗn loạn
) trong các giáo trình vật lý, hóa học, thiên văn học, lý thuyết thông tin, v.v.
Entropy có thể được giữ nguyên, perplexity nếu được dịch sang tiếng Việt thì hay hơn vì đọc cảm giác hơi dài (perplexity của câu A).
Theo từ điển kỹ thuât:
- Entropy thì được dịch là entrôpi (Gần như giữ nguyên).
- Perplexity thì lại không có mặt trong từ điển kỹ thuật mà được dịch là
độ lúng túng
,rắc rối
,phức tạp
. Do đó giữ nguyên từ gốc không phải ý hay vì người đọc tra từ sẽ hiểu theo nghĩa không đúng như mô tả trong công thức của nó.
Co-authored-by: Phúc Lê <phuc.lkh@gmail.com>
* Amend "Perplexity" * Apply suggestions from code review Co-authored-by: Phúc Lê <phuc.lkh@gmail.com> Co-authored-by: Duy–Thanh Doan <tech@duythanh.vn> Co-authored-by: Phúc Lê <phuc.lkh@gmail.com>
Sửa đổi #1598 theo đề xuất của anh @davidnvq
Một lựa chọn khác có thể là để nguyên giống
entropy