Cách viết prompt cho AI phần 3 - Cách Cấu Hình LLM Cho Kỹ Thuật Prompt | Coder kiếm cơm - Chuyện chàng dev quèn

Link tài liệu bản tiếng Anh: Prompt Engineering - Concepts and Techniques

Coderkiemcom tiếp tục chuỗi bài viết về Prompt Engineering - Concepts and Techniques, hướng dẫn cách cấu hình các tham số của LLM để kiểm soát đầu ra một cách hiệu quả.

Chuỗi bài viết này được chia sẻ cộng đồng, không được kinh doanh dưới mọi hình thức, NGHIÊM CẤM CÁC THÁNH LÙA GÀ DƯỚI MỌI HÌNH THỨC

Part 1: Giới Thiệu Tài Liệu
Part 2: Định Nghĩa Tổng Quan Kỹ Thuật Prompt
Part 3: Cách Cấu Hình LLM Cho Kỹ Thuật Prompt
Part 4: ...
...

Cách Cấu Hình LLM Cho Kỹ Thuật Prompt

Bên cạnh việc thiết kế prompt (đầu vào văn bản), việc tinh chỉnh các cấu hình của Mô hình Ngôn ngữ Lớn (LLM) là yếu tố quan trọng để kiểm soát đầu ra. Kỹ thuật Prompt hiệu quả đòi hỏi sự tối ưu hóa các cấu hình này để phù hợp với nhiệm vụ cụ thể. Phần này mô tả các tùy chọn cấu hình phổ biến nhất, bao gồm Độ dài đầu ra (Giới hạn Token) và Kiểm soát lấy mẫu (Sampling Controls).

Độ Dài Đầu Ra (Giới Hạn Token)

Độ dài đầu ra xác định số lượng token được tạo ra trong phản hồi của LLM. Token là đơn vị xử lý cơ bản của mô hình ngôn ngữ.

Việc tạo nhiều token hơn đòi hỏi tính toán nhiều hơn, dẫn đến:
- Tiêu thụ năng lượng cao hơn.
- Thời gian phản hồi chậm hơn.
- Chi phí cao hơn.
Giảm độ dài đầu ra không làm cho phản hồi trở nên súc tích hơn về mặt nội dung, mà chỉ khiến LLM ngừng dự đoán token khi đạt giới hạn.
Để có phản hồi ngắn gọn, bạn cần thiết kế prompt rõ ràng, ví dụ: "Giải thích vật lý lượng tử trong một tin nhắn có độ dài tương đương tweet".
Giới hạn token đặc biệt quan trọng trong các kỹ thuật như ReAct, nơi LLM có thể tạo ra token không hữu ích sau khi đã đưa ra phản hồi mong muốn.
Bạn có thể kiểm soát độ dài bằng cách:
- Đặt giới hạn token tối đa trong cấu hình.
- Yêu cầu độ dài cụ thể trong prompt.

Kiểm Soát Lấy Mẫu (Sampling Controls)

LLM dự đoán xác suất cho token tiếp theo, sau đó lấy mẫu để chọn token đầu ra. Các cấu hình như Temperature, Top-K, và Top-P kiểm soát mức độ ngẫu nhiên và đa dạng của văn bản.

Temperature

Temperature điều chỉnh mức độ ngẫu nhiên trong việc chọn token:

Temperature thấp (gần 0): Phản hồi xác định hơn, phù hợp với các nhiệm vụ cần độ chính xác cao.
- Temperature = 0 (greedy decoding): Luôn chọn token có xác suất cao nhất. Tuy nhiên, nếu có hai token có xác suất bằng nhau, kết quả có thể không hoàn toàn giống nhau tùy vào triển khai.
Temperature cao (gần hoặc trên 1): Phản hồi đa dạng và sáng tạo hơn, nhưng có thể ngẫu nhiên quá mức.
- Temperature rất cao (hàng chục) khiến tất cả token có xác suất gần bằng nhau.
Trong LLM như Gemini, temperature tương tự hàm softmax trong học máy:
- Temperature thấp nhấn mạnh một token duy nhất với độ chắc chắn cao.
- Temperature cao làm tăng tính không chắc chắn, phù hợp với các tác vụ sáng tạo.

Top-K và Top-P (Nucleus Sampling)

Top-K và Top-P giới hạn token được chọn trong số những token có xác suất cao nhất.

Top-K Sampling:
- Chọn K token có xác suất cao nhất.
- Top-K cao: Đầu ra sáng tạo và đa dạng hơn.
- Top-K thấp: Đầu ra hạn chế và thực tế hơn.
- Top-K = 1: Tương đương với greedy decoding.
- Top-K rất cao (bằng kích thước từ vựng): Không loại bỏ token nào.
Top-P Sampling:
- Chọn các token có tổng xác suất tích lũy không vượt quá giá trị P (từ 0 đến 1).
- P = 0: Chỉ chọn token có xác suất cao nhất (greedy decoding).
- P = 1: Không loại bỏ token nào.
- P nhỏ: Hạn chế đầu ra, tương tự Top-K thấp.
Cách chọn: Thử nghiệm cả Top-K và Top-P (hoặc kết hợp) để tìm ra cấu hình phù hợp.

Kết Hợp Các Cài Đặt

Các cấu hình như Temperature, Top-K, Top-P, và giới hạn token tương tác lẫn nhau:

Trong các hệ thống như Vertex Studio, token phải vượt qua cả tiêu chí Top-K và Top-P, sau đó Temperature được áp dụng để lấy mẫu.
Nếu chỉ có Top-K hoặc Top-P, hành vi tương tự nhưng chỉ dựa trên cấu hình đó.
Ở các giá trị cực đoan:
- Temperature = 0: Top-K và Top-P trở nên không liên quan, luôn chọn token có xác suất cao nhất.
- Temperature rất cao: Token vượt qua Top-K/Top-P được chọn ngẫu nhiên.
- Top-K = 1: Chỉ chọn một token, bỏ qua Temperature và Top-P.
- Top-P = 0: Chỉ chọn token có xác suất cao nhất, bỏ qua Temperature và Top-K.

Điểm Bắt Đầu và Lưu Ý

Dưới đây là các gợi ý khởi đầu cho cấu hình:

Phản hồi mạch lạc, hơi sáng tạo:
- Temperature: 0.2
- Top-P: 0.95
- Top-K: 30
Phản hồi rất sáng tạo:
- Temperature: 0.9
- Top-P: 0.99
- Top-K: 40
Phản hồi ít sáng tạo:
- Temperature: 0.1
- Top-P: 0.9
- Top-K: 20
Nhiệm vụ có đáp án duy nhất (ví dụ: toán học):
- Temperature: 0

Lưu ý:

Cấu hình tự do hơn (Temperature, Top-K, Top-P cao, giới hạn token lớn) có thể tạo ra văn bản ít liên quan.
Lỗi lặp lại (repetition loop bug): LLM có thể lặp lại từ/cụm từ do cấu hình không phù hợp:
- Temperature thấp: Mô hình quá xác định, lặp lại đường xác suất cao.
- Temperature cao: Đầu ra ngẫu nhiên, có thể quay lại trạng thái trước.
- Giải pháp: Tinh chỉnh cẩn thận Temperature, Top-K, và Top-P để cân bằng giữa tính xác định và ngẫu nhiên.

Kết Luận

Cấu hình LLM thông qua giới hạn token, Temperature, Top-K, và Top-P là một phần không thể thiếu của Prompt Engineering. Các cài đặt này cho phép bạn kiểm soát tính xác định, sự đa dạng, và chi phí của đầu ra để phù hợp với nhiệm vụ. Việc thử nghiệm và hiểu sự tương tác giữa các cài đặt là chìa khóa để tối ưu hóa hiệu suất LLM.

Hãy tiếp tục theo dõi chuỗi bài viết để khám phá các kỹ thuật Prompt Engineering tiên tiến hơn!

Nếu bạn thấy bài viết này hữu ích, hãy chia sẻ suy nghĩ và phản hồi của bạn. Ý kiến của bạn sẽ giúp cải thiện nội dung và hỗ trợ cộng đồng người dùng.

Chuỗi bài viết này được chia sẻ cộng đồng, không được kinh doanh dưới mọi hình thức, NGHIÊM CẤM CÁC THÁNH LÙA GÀ DƯỚI MỌI HÌNH THỨC.