其他 ★ 121 2026/5/22
LLM数据集宝库
精选LLM数据集合集,覆盖医疗、NLP等
综合评分
开箱即用度
Vibe Coding 友好度
datasetsLLMbenchmarkcurated-list
商业价值摘要
该项目为研究人员和AI工程师提供了一个精心整理的LLM数据集索引,涵盖医疗、指令微调、推理、代码生成等多个领域。用户无需自行搜索,可快速找到高质量数据集用于模型训练和评估。
Vibe Coding 实战提示
复制以下 Prompt 到 Claude Code 或 Cursor 中使用:
使用Claude Code,首先从GitHub克隆仓库:git clone https://github.com/ahammadmejbah/Awesome-Datasets-Hub.git。然后打开README.md,根据任务需求(如医疗QA)在表格中筛选数据集名称和链接。使用curl或wget下载所选数据集(如MedQA),并按照数据集官方说明进行预处理。最后编写Python脚本加载数据并用于微调或评估LLM。
避坑指南
1. 部分数据集链接可能失效,需手动验证。
2. 数据集规模差异大,注意存储和计算资源。
3. 表格中License信息可能不完整,使用前请核实。
4. 项目持续更新,建议定期同步最新版本。
5. 数据集适用语言和任务需仔细匹配,避免误用。
订阅周报
每周精选 AI 开源项目推荐,直投你的邮箱