其他 ★ 121 2026/5/22

LLM数据集宝库

精选LLM数据集合集,覆盖医疗、NLP等

综合评分

开箱即用度

Vibe Coding 友好度

datasetsLLMbenchmarkcurated-list

商业价值摘要

该项目为研究人员和AI工程师提供了一个精心整理的LLM数据集索引,涵盖医疗、指令微调、推理、代码生成等多个领域。用户无需自行搜索,可快速找到高质量数据集用于模型训练和评估。

Vibe Coding 实战提示

复制以下 Prompt 到 Claude Code 或 Cursor 中使用:

使用Claude Code,首先从GitHub克隆仓库:git clone https://github.com/ahammadmejbah/Awesome-Datasets-Hub.git。然后打开README.md,根据任务需求(如医疗QA)在表格中筛选数据集名称和链接。使用curl或wget下载所选数据集(如MedQA),并按照数据集官方说明进行预处理。最后编写Python脚本加载数据并用于微调或评估LLM。

避坑指南

1. 部分数据集链接可能失效,需手动验证。 2. 数据集规模差异大,注意存储和计算资源。 3. 表格中License信息可能不完整,使用前请核实。 4. 项目持续更新,建议定期同步最新版本。 5. 数据集适用语言和任务需仔细匹配,避免误用。

订阅周报

每周精选 AI 开源项目推荐,直投你的邮箱