giangnguyen2412 / interpretablemlbook-vietnamese Goto Github PK
View Code? Open in Web Editor NEWBản dịch của cuốn "Interpretable Machine Learning: A Guide for Making Black Box Models Explainable" sang tiếng Việt
Bản dịch của cuốn "Interpretable Machine Learning: A Guide for Making Black Box Models Explainable" sang tiếng Việt
Về chương này em có dịch một số từ như sau:
local surrogate models: các mô hình thay thế cục bộ
additive feature attribution method: phương pháp cộng tính thuộc tính đặc trưng
gradient boosted trees: cây tăng cường gradient.
tree ensemble: các nhóm cây.
hierarchical agglomerative clustering: từ này em thấy hơi khó dịch. Em định đính kèm web wiki thôi. https://en.wikipedia.org/wiki/Hierarchical_clustering
explanation similarity: tính giống nhau về giải thích
SHAP feature importance: Mức quan trọng của đặc trưng SHAP
global importance: mức quan trọng toàn cục
Mọi người thấy ổn không ạ?
Chào mọi người, em có các câu hỏi về dịch như sau:
That's sound fancy. Theo em biết là fancy nó chỉ những cái "văn hoa", nhưng tác giả lại dùng cho thể hiện công thức. Vậy từ "văn hoa" vẫn hợp lý không ạ?
neighborhood, em đang dịch là "hàng xóm." Ở đây nó giống như là tập những điểm gần 1 điểm đang quan tâm.
center, em dịch là "căn giữa." Nó giống như là lấy mọi data point trừ mean để bằng 0, cho giá trị trung bình ở giữa đường cong ở ngay trung tâm hệ toạ độ.
quantiles, thì em không rõ dịch sao, dù hiểu được qua https://en.wikipedia.org/wiki/Quantile.
cumulative: em thấy trên mạng dùng từ "tích luỹ", mà từ accumulated cũng là "tích luỹ." Vậy mọi người thấy giữ từ "tích luỹ" cho cả hai từ tiếng anh luôn được không?
multi-dimensional scaling, em dịch là "phép kéo dãn đa chiều."
empirical cumulative distribution, em dịch là "phân phối tích luỹ kinh nghiệm."
shaded background, em dịch là "nền bóng."
variance-explained, em dịch là "phương sai giải thích."
Mọi người có nhận xét gì không ạ?
Em/mình định dịch là: toán tử lựa chọn và rút gọn tuyệt đối nhỏ nhất
.
LASSO được áp dụng trong nhiều vấn đề kỹ thuật, liệu đã có ai dịch từ này chưa nhỉ?
Mọi người cho ý kiến nhé.
Mình đang đọc đoạn này, tuy nhiên không đồng ý với tác giả:
Đoạn này nằm ở chương 4.1.1. Tác giả có nói:
There is a catch, because R-squared increases with the number of features in the model, even if they do not contain any information about the target value at all.
Tuy nhiên dựa vào công thức tính R ở trên theo SSE và SST, ta không thể đưa ra quyết định như tác giả.
Bởi vì, nếu p tăng (p là số lượng đặc trưng), vì mô hình là tuyến tính,
Mọi người cho Loan hỏi nghĩa của các từ này nhé
Counterfactual Explanations: những lý giải giả định
"causes": nguyên nhân, gây ra
Dịch như thế có ổn không?
Chào mọi người, hiện tại có một số từ em dịch như sau. Mong mọi người �cho ý kiến ạ, vì có một số từ em thấy hơi khó dịch sát nghĩa.
Casual users: người dùng thông thường
Về thời tiết:
Em cảm ơn.
exponential smoothing kernel: nhân làm mượt dạng mũ
segment: phân tách?
abstract word embeddings:
Chương 5.9 em chỉ có những từ sau muốn hỏi ý kiến mọi người:
payout: thanh toán. Trong chapter này tác giả coi mô hình học máy dự đoán số tiền thực tế làm game theory, lấy features làm người chơi và payout là số tiền một feature góp vào để tạo ra dự đoán.
coalition game theory: lý thuyết trò chơi liên minh. Theo đó em dịch luôn coalition là liên minh.
cooperative game theory: lý thuyết trò chơi hợp tác.
inclusion: Sự bao hàm.
Em cảm ơn ạ.
Random Forest: hiện tại em giữ nguyên từ này.
Deep Neural Network: mạng nơron sâu (em có mở ngoặc chú thích từ gốc).
A graphic with feature importances: em không hiểu phần này lắm. Em dịch là "đồ hoạ với các đặc điểm quan trọng".
Black Box Model: mô hình hộp đen?
Interpretable Machine Learning: máy học có khả năng phân tích.
Em dịch còn khá nhiều từ bị cứng nhắc :( nhưng chưa biết chữa sao.
Chào mọi người em có dịch qua một số từ trong phần 5.8 như sau. Bốn từ đầu được lấy từ đoạn này:
Like its predecessor, the anchors approach deploys a perturbation-based strategy to generate local explanations for predictions of black-box machine learning models. However, instead of surrogate models used by LIME, the resulting explanations are expressed as easy-to-understand IF-THEN rules, called anchors. These rules are reusable since they are scoped: anchors include the notion of coverage, stating precisely to which other, possibly unseen, instances they apply.
perturbation-based strategy: chiến lược dựa trên nhiễu loạn. Từ đó em dịch luôn perturbation là nhiễu loạn.
scoped: phạm vi hoá.
coverage: phạm vi bao trùng.
attribute: thuộc tính.
Các từ còn lại em dịch như sau:
model-agnostic: kiểu mẫu.
predicate: từ này em định giữ nguyên do trên mạng ghi như sau: https://en.wikipedia.org/wiki/Predicate_(mathematical_logic).
payoff: �theo reinforcement learning thì em nghĩ sẽ giữ nguyên do ý nghĩa cùa từ thay đổi theo nội dung dịch. Thường nó chỉ mức điểm thu được, nhưng trong bài này thì nó chỉ mức precision của mô hình.
subsettable: thì em dịch là tập con hoá. Từ này trong câu "anchors are subsettable and even state a measure of importance by including the notion of coverage."
discretization: em dịch là sự rời rạc hoá.
Em cảm ơn!
Chào mọi người, hiện tại phần cuối của 5.1 em có những từ thắc mắc như sau:
Rug trong câu "This problem is easily solved by showing a rug (indicators for data points on the x-axis) or a histogram." Em tìm t�rong link, "https://www.mathworks.com/matlabcentral/fileexchange/27582-rug-plots," họ giải thích rug plot là biểu đồ thể hiện marginal distribution của hai trục xy." Thì em định có thể giữ nguyên từ rồi thêm link để người đọc hiểu chứ cũng thấy hơi khó dịch từ này.
Accumulated Local Effect plot thì em phân vân giữa "phác họa tích tụ/tích lũy ảnh hưởng cục bộ."
Heterogeneous effect thì em băn khoăn giữa "ảnh hưởng không đồng nhất/dị tính."
Individual conditional expectation curve thì em dịch là "đồ thị điều kiện kỳ vọng riêng biệt."
Mọi người có đề xuất ra sao về những cách dịch trên?
Trong bảng thuật ngữ của cuốn Đắm mình vào học sâu, thuật ngữ này được dịch là Tối thiểu bình phương sai số. Tuy nhiên theo mình thấy nên dịch là Sai số bình phương tối thiểu sẽ thuận hơn. Tương tự với MSE, RMSE v.v..
Trong quá trình dịch mình thấy có 1 vấn đề với logistic regression được đề cập trong 4.5.2
.
Logistic regression can suffer from complete separation. If there is a feature that would perfectly separate the two classes, the logistic regression model can no longer be trained. This is because the weight for that feature would not converge, because the optimal weight would be infinite.
Mình muốn discuss về vấn đề này một chút.
Trong công thức của hồi quy logistic:
Nếu x1 là đặc trưng gây ra complete separation, khi này giá trị x1 sẽ hoàn toàn control việc huấn luyện.
Nếu label là 0, thì giá trị beta1 sẽ âm vô cùng và nếu label là 1 thì giá trị beta1 là dương vô cùng để cực đại MLE.
Khi này trọng số beta1 sẽ không thể hội tụ do update step giữa mỗi sample là quá lớn (-infinity -> infinity or vice versa).
Ai có cách giải thích khác ko nhỉ?
Chào các anh chị, hiện tại em có những từ dịch như sau:
Partial Dependence Plot: Đồ thị đặc trưng riêng.
Instances: các hàng dữ liệu được chọn. Từ này ở trong câu: "In this formula ... and n is the number of instances in the dataset." Từ này nếu có được cách dịch ngắn hơn thì ổn hơn ạ.
marginal effect: ảnh hưởng biên.
categorical feature: đặc trưng phân loại.
Theo mọi người có góp ý ra sao về cách dịch trên? Em cảm ơn.
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.