AI Hub
Quay lại khám phá
DeepSeek

DeepSeek: DeepSeek V3 (community)

deepseek/deepseek-v3/community
DeepSeek-V3 đã đạt được bước đột phá lớn về tốc độ suy diễn so với các mô hình trước đó. Nó đứng đầu trong số các mô hình mã nguồn mở và có thể so sánh với các mô hình đóng nguồn tiên tiến nhất trên toàn cầu. DeepSeek-V3 sử dụng kiến trúc Attention đa đầu (MLA) và DeepSeekMoE, những kiến trúc này đã được xác thực toàn diện trong DeepSeek-V2. Hơn nữa, DeepSeek-V3 đã sáng tạo ra một chiến lược phụ trợ không mất mát cho cân bằng tải và thiết lập mục tiêu đào tạo dự đoán đa nhãn để đạt được hiệu suất mạnh mẽ hơn.
62K

Nhà cung cấp hỗ trợ mô hình này

DeepSeek
PPIOPPIO
DeepSeekdeepseek/deepseek-v3/community
Độ dài ngữ cảnh tối đa
62K
Độ dài đầu ra tối đa
--
Giá đầu vào
$0.14
Giá đầu ra
$0.28
PPIOPPIO
DeepSeekdeepseek/deepseek-v3/community
Độ dài ngữ cảnh tối đa
62K
Độ dài đầu ra tối đa
--
Giá đầu vào
$0.14
Giá đầu ra
$0.28
FireworksFireworks
DeepSeekdeepseek/deepseek-v3/community
Độ dài ngữ cảnh tối đa
--
Độ dài đầu ra tối đa
--
Giá đầu vào
--
Giá đầu ra
--
QwenQwen
DeepSeekdeepseek/deepseek-v3/community
Độ dài ngữ cảnh tối đa
--
Độ dài đầu ra tối đa
--
Giá đầu vào
--
Giá đầu ra
--
BaiduCloudBaiduCloud
WenxinWenxin千帆
DeepSeekdeepseek/deepseek-v3/community
Độ dài ngữ cảnh tối đa
--
Độ dài đầu ra tối đa
--
Giá đầu vào
--
Giá đầu ra
--
DeepSeekdeepseek/deepseek-v3/community
Độ dài ngữ cảnh tối đa
--
Độ dài đầu ra tối đa
--
Giá đầu vào
--
Giá đầu ra
--

Tham số mô hình

Ngẫu nhiên
temperature

Cài đặt này ảnh hưởng đến sự đa dạng trong phản hồi của mô hình. Giá trị thấp hơn dẫn đến phản hồi dễ đoán và điển hình hơn, trong khi giá trị cao hơn khuyến khích phản hồi đa dạng và không thường gặp. Khi giá trị được đặt là 0, mô hình sẽ luôn đưa ra cùng một phản hồi cho đầu vào nhất định. Xem tài liệu

Loại
FLOAT
Giá trị mặc định
1.00
Phạm vi
0.00 ~ 2.00
Lấy mẫu hạt nhân
top_p

Cài đặt này giới hạn lựa chọn của mô hình chỉ trong một tỷ lệ từ có khả năng cao nhất: chỉ chọn những từ hàng đầu có xác suất tích lũy đạt P. Giá trị thấp hơn làm cho phản hồi của mô hình dễ đoán hơn, trong khi cài đặt mặc định cho phép mô hình chọn từ toàn bộ phạm vi từ vựng. Xem tài liệu

Loại
FLOAT
Giá trị mặc định
1.00
Phạm vi
0.00 ~ 1.00
Độ mới của chủ đề
presence_penalty

Cài đặt này nhằm kiểm soát việc lặp lại từ vựng dựa trên tần suất xuất hiện của từ trong đầu vào. Nó cố gắng sử dụng ít hơn những từ đã xuất hiện nhiều trong đầu vào, với tần suất sử dụng tỷ lệ thuận với tần suất xuất hiện. Hình phạt từ vựng tăng theo số lần xuất hiện. Giá trị âm sẽ khuyến khích việc lặp lại từ vựng. Xem tài liệu

Loại
FLOAT
Giá trị mặc định
0.00
Phạm vi
-2.00 ~ 2.00
Hình phạt tần suất
frequency_penalty

Cài đặt này điều chỉnh tần suất mà mô hình lặp lại các từ cụ thể đã xuất hiện trong đầu vào. Giá trị cao hơn làm giảm khả năng lặp lại này, trong khi giá trị âm tạo ra hiệu ứng ngược lại. Hình phạt từ vựng không tăng theo số lần xuất hiện. Giá trị âm sẽ khuyến khích việc lặp lại từ vựng. Xem tài liệu

Loại
FLOAT
Giá trị mặc định
0.00
Phạm vi
-2.00 ~ 2.00
Giới hạn phản hồi một lần
max_tokens

Cài đặt này xác định độ dài tối đa mà mô hình có thể tạo ra trong một lần phản hồi. Việc đặt giá trị cao hơn cho phép mô hình tạo ra những phản hồi dài hơn, trong khi giá trị thấp hơn sẽ giới hạn độ dài của phản hồi, giúp nó ngắn gọn hơn. Tùy thuộc vào các tình huống ứng dụng khác nhau, điều chỉnh giá trị này một cách hợp lý có thể giúp đạt được độ dài và mức độ chi tiết mong muốn của phản hồi. Xem tài liệu

Loại
INT
Giá trị mặc định
--
Mức độ suy luận
reasoning_effort

Cài đặt này được sử dụng để kiểm soát mức độ suy luận của mô hình trước khi tạo câu trả lời. Mức độ thấp ưu tiên tốc độ phản hồi và tiết kiệm Token, trong khi mức độ cao cung cấp suy luận đầy đủ hơn nhưng tiêu tốn nhiều Token hơn và làm giảm tốc độ phản hồi. Giá trị mặc định là trung bình, cân bằng giữa độ chính xác của suy luận và tốc độ phản hồi. Xem tài liệu

Loại
STRING
Giá trị mặc định
--
Phạm vi
low ~ high

Mô hình liên quan

DeepSeek

DeepSeek: DeepSeek R1 (community)

deepseek/deepseek-r1/community
DeepSeek R1 là mô hình mã nguồn mở mới nhất được phát hành bởi đội ngũ DeepSeek, có hiệu suất suy diễn rất mạnh mẽ, đặc biệt trong các nhiệm vụ toán học, lập trình và suy luận, đạt được mức độ tương đương với mô hình o1 của OpenAI.
62K
DeepSeek

DeepSeek R1

deepseek/deepseek-r1
DeepSeek-R1 đã nâng cao khả năng suy luận của mô hình một cách đáng kể với rất ít dữ liệu được gán nhãn. Trước khi đưa ra câu trả lời cuối cùng, mô hình sẽ xuất ra một chuỗi suy nghĩ để nâng cao độ chính xác của câu trả lời cuối cùng.
62K
DeepSeek

DeepSeek V3

deepseek/deepseek-v3
DeepSeek-V3 đã đạt được bước đột phá lớn về tốc độ suy diễn so với các mô hình trước đó. Nó đứng đầu trong số các mô hình mã nguồn mở và có thể so sánh với các mô hình đóng nguồn tiên tiến nhất trên toàn cầu. DeepSeek-V3 sử dụng kiến trúc Attention đa đầu (MLA) và DeepSeekMoE, những kiến trúc này đã được xác thực toàn diện trong DeepSeek-V2. Hơn nữa, DeepSeek-V3 đã sáng tạo ra một chiến lược phụ trợ không mất mát cho cân bằng tải và thiết lập mục tiêu đào tạo dự đoán đa nhãn để đạt được hiệu suất mạnh mẽ hơn.
62K
Meta

DeepSeek R1 Distill Llama 70B

deepseek/deepseek-r1-distill-llama-70b
DeepSeek R1 Distill Llama 70B là mô hình ngôn ngữ lớn dựa trên Llama3.3 70B, mô hình này sử dụng đầu ra tinh chỉnh từ DeepSeek R1 để đạt được hiệu suất cạnh tranh tương đương với các mô hình tiên tiến lớn.
32K
Qwen

DeepSeek: DeepSeek R1 Distill Qwen 32B

deepseek/deepseek-r1-distill-qwen-32b
DeepSeek R1 Distill Qwen 32B là một mô hình ngôn ngữ lớn đã được tinh chế dựa trên Qwen 2.5 32B, được đào tạo bằng cách sử dụng đầu ra từ DeepSeek R1. Mô hình này đã vượt qua o1-mini của OpenAI trong nhiều bài kiểm tra chuẩn, đạt được những thành tựu công nghệ tiên tiến nhất trong các mô hình dày đặc (dense models). Dưới đây là một số kết quả từ các bài kiểm tra chuẩn: AIME 2024 pass@1: 72.6 MATH-500 pass@1: 94.3 CodeForces Rating: 1691 Mô hình này đã thể hiện hiệu suất cạnh tranh tương đương với các mô hình tiên tiến lớn hơn thông qua việc tinh chỉnh từ đầu ra của DeepSeek R1.
62K