Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Amend "Perplexity" #1768

Merged
merged 2 commits into from Jun 13, 2020
Merged

Amend "Perplexity" #1768

merged 2 commits into from Jun 13, 2020

Conversation

rootonchair
Copy link
Contributor

Sửa đổi #1598 theo đề xuất của anh @davidnvq
Một lựa chọn khác có thể là để nguyên giống entropy

glossary.md Outdated
@@ -317,7 +317,7 @@ Nếu bạn cho rằng một từ không nên dịch ra tiếng Việt, bạn c
| penalty | lượng phạt | [https://git.io/JvQAP](https://git.io/JvQAP) |
| perceptron | perceptron | [https://git.io/JvohC](https://git.io/JvohC) |
| performance | chất lượng | [https://git.io/JvQx4](https://git.io/JvQx4) |
| perplexity (metric) | độ rối rắm | |
| perplexity (metric) | độ hỗn độn | |
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
| perplexity (metric) | độ hỗn độn | |
| perplexity (metric) | độ lủng củng | [https://git.io/JfMuZ](https://git.io/JfMuZ) |

mình vẫn nghĩ lủng củng phù hợp hơn.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Mình thấy rối rắm nghe rất là không mượt. Hỗn độn như mình nói là cũng dễ bị nhầm.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

@ngcthuong anh có đề xuất nào không ạ?

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Mình dùng "độ tường minh", độ mạch lạc được không nhỉ?
Nhưng có vẻ nó sẽ ngược lại với từ trong bài.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

à đúng ạ, perplexity cần càng nhỏ càng tốt, nên dùng các từ mang nghĩa negative.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

MÌnh để suất bỏ từ "rắm" đi. Độ rối là ổn rồi.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Tương tự như "sparse represnetation", không cần phải dùng từ láy để thành ra "biểu diễn thưa ... thớt"

@thanhcsf thanhcsf added this to Review in progress in v0.14.x via automation Jun 7, 2020
@thanhcsf thanhcsf added this to In progress in Glossary via automation Jun 7, 2020
@cuongvng cuongvng mentioned this pull request Jun 7, 2020
7 tasks
@thanhcsf
Copy link
Member

thanhcsf commented Jun 9, 2020

Anh em chốt cái này thôi. cc: @rootonchair @minhduc0711 @lkhphuc

@thanhcsf thanhcsf added the status: blocking PR đang làm gián đoạn các PR khác. label Jun 9, 2020
@thanhcsf thanhcsf requested a review from ngcthuong June 9, 2020 11:38
v0.14.x automation moved this from Review in progress to Reviewer approved Jun 9, 2020
Copy link
Contributor

@minhduc0711 minhduc0711 left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

từ này thì em không có strong opinion ạ

glossary.md Outdated
@@ -317,7 +317,7 @@ Nếu bạn cho rằng một từ không nên dịch ra tiếng Việt, bạn c
| penalty | lượng phạt | [https://git.io/JvQAP](https://git.io/JvQAP) |
| perceptron | perceptron | [https://git.io/JvohC](https://git.io/JvohC) |
| performance | chất lượng | [https://git.io/JvQx4](https://git.io/JvQx4) |
| perplexity (metric) | độ rối rắm | |
| perplexity (metric) | độ hỗn độn | |
Copy link
Member

@thanhcsf thanhcsf Jun 11, 2020

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
| perplexity (metric) | độ hỗn độn | |
| perplexity (metric) | độ rối | |

Theo đề xuất của anh Thướng, anh em vote nhé.

Copy link
Contributor

@davidnvq davidnvq Jun 11, 2020

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Em đưa thêm một số ví dụ tìm được trên Google cho thấy perplexity (PP) có thể coi là entropy trong NLP (độ hỗn độn trong ngữ cảnh NLP). Trong link, họ còn dẫn ra các slide từ bài giảng NLP của Stanford và các bài báo.

Độ rối và độ lủng củng em cảm nhận là thước đo về "độ không tốt" của câu @ngcthuong @cuongvng . Tuy nhiên, theo nguồn Wikipedia (mang tính hàn lâm đôi chút tuy không thấy ghi rõ nguồn) và cũng từ công thức perplexity, sẽ gặp trường hợp một câu có giá trị PP cao dù câu đó có hay tới đâu vì xác suất gặp trong lúc huấn luyện là rất thấp. Lúc này không thể nói là câu đó rối (rắm) hay lủng củng được chỉ vì probability thấp.

Có thể đó cũng là lý do mà các thầy ở BK và trường khác không sửa lại từ đó trong bài tập lớn cũng như luận văn của sv.

Intuitively, perplexity can be understood as a measure of uncertainty.
https://thegradient.pub/understanding-evaluation-metrics-for-language-models/

The perplexity is the exponentiation of the entropy
https://en.wikipedia.org/wiki/Perplexity

you can safely think of the concept of perplexity as entropy
https://towardsdatascience.com/perplexity-intuition-and-derivation-105dd481c8f3

NLP researcher says: "Thus, perplexity metric in NLP is a way to capture the degree of 'uncertainty' a model has in predicting (assigning probabilities to) some text. It is related to Shannon's Entropy. Lower the entropy (uncertainty), lower the perplexity."
https://www.quora.com/What-is-perplexity-in-NLP

Copy link
Contributor

@davidnvq davidnvq Jun 11, 2020

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Em vote độ hỗn độn vì nếu có hiểu nhầm là entropy thì cũng không quá phi lý. Trong khi đó, rất có thể những người làm NLP ở VN đọc thấy những đề xuất trên xuôi tai nhưng lại không lạ thì cx ổn lắm.
P/S: đặt nhầm chữ không, mong mn thông cảm :3

Copy link
Contributor

@davidnvq davidnvq Jun 11, 2020

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Qua Google thì em thấy là entropy có thể được giữ nguyên, hoặc được dịch định nghĩa là độ hỗn độn (thi thoảng thấy độ hỗn loạn) trong các giáo trình vật lý, hóa học, thiên văn học, lý thuyết thông tin, v.v.
Entropy có thể được giữ nguyên, perplexity nếu được dịch sang tiếng Việt thì hay hơn vì đọc cảm giác hơi dài (perplexity của câu A).

Theo từ điển kỹ thuât:

  • Entropy thì được dịch là entrôpi (Gần như giữ nguyên).
  • Perplexity thì lại không có mặt trong từ điển kỹ thuật mà được dịch là độ lúng túng, rắc rối, phức tạp. Do đó giữ nguyên từ gốc không phải ý hay vì người đọc tra từ sẽ hiểu theo nghĩa không đúng như mô tả trong công thức của nó.

glossary.md Outdated Show resolved Hide resolved
Co-authored-by: Phúc Lê <phuc.lkh@gmail.com>
@thanhcsf thanhcsf merged commit 1203764 into master Jun 13, 2020
v0.14.x automation moved this from Reviewer approved to Done Jun 13, 2020
Glossary automation moved this from In progress to Done Jun 13, 2020
@thanhcsf thanhcsf deleted the rootonchair-patch-2 branch June 13, 2020 00:58
thanhcsf pushed a commit that referenced this pull request Sep 13, 2020
* Amend "Perplexity"

* Apply suggestions from code review

Co-authored-by: Phúc Lê <phuc.lkh@gmail.com>

Co-authored-by: Duy–Thanh Doan <tech@duythanh.vn>
Co-authored-by: Phúc Lê <phuc.lkh@gmail.com>
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
status: blocking PR đang làm gián đoạn các PR khác. type: glossary
Projects
No open projects
Glossary
  
Done
v0.14.x
  
Done (Max)
Development

Successfully merging this pull request may close these issues.

None yet

7 participants