1. 揭露数据集:许多AI体系运用揭露的数据集进行练习,这些数据集或许包含图画、文本、语音、视频等。例如,ImageNet是一个包含很多符号图画的数据集,常用于计算机视觉使命。
2. 用户生成数据:一些AI体系或许运用用户生成数据,例如交际媒体帖子、查找查询、在线谈论等。这些数据能够协助AI体系了解用户的行为和偏好。
3. 企业数据:企业或许具有自己的数据集,例如客户信息、出售数据、产品数据等。这些数据能够用于练习AI体系,以协助企业进步功率、降低成本或供给更好的客户服务。
4. 政府数据:政府机构或许具有很多的公共数据,例如人口统计数据、气候数据、交通数据等。这些数据能够用于练习AI体系,以协助政府进步公共服务水平。
5. 开源数据:一些开源项目或许供给数据集,例如开源的语音辨认数据集、开源的机器翻译数据集等。这些数据能够用于练习AI体系,以促进AI技能的开展。
6. 组成数据:在某些状况下,AI体系或许运用组成数据,例如经过模仿或生成数据来创立新的数据集。这些数据能够用于练习AI体系,以测验AI体系的功能或探究新的AI算法。
7. 私有数据:一些AI体系或许运用私有数据,例如医疗记载、财务数据等。这些数据或许遭到法令或隐私约束,但能够用于练习AI体系,以供给个性化的服务或解决计划。
8. 众包数据:一些AI体系或许运用众包数据,例如经过让用户符号图画或供给其他数据来创立数据集。这些数据能够用于练习AI体系,以进步AI体系的精确性和功率。
需求留意的是,AI体系运用的数据应该遵从相关的法令法规和道德原则,以保证数据的安全性和隐私性。一起,AI体系运用的数据应该具有多样性和代表性,以防止成见和轻视。
TCGA(The Cancer Genome Atlas):一个包含癌症基因组数据的公共数据库,为癌症研讨和医治供给了名贵的数据支撑。
PDB(Protein Data Bank):一个存储蛋白质结构信息的数据库,关于生物信息学和药物研制等范畴具有重要意义。
Drugbank:一个包含药物信息、药物靶点、药物相互作用等数据的数据库,为药物研制供给了丰厚的数据资源。
GenBank:一个包含生物序列信息的数据库,为基因研讨和生物信息学供给了重要的数据支撑。
临床试验数据:经过临床试验搜集的数据,能够用于评价药物效果和安全性。
患者病历数据:包含患者的病史、查看成果、医治计划等信息,关于个性化医疗具有重要意义。
试验室数据:包含细胞试验、动物试验等数据,为药物研制供给了试验根据。
专利数据:经过剖析专利数据,能够了解职业开展趋势和竞争对手状况。
CytoReason:供给数据驱动的方针发现服务,具有世界上最大的人类分子数据库之一。
Innoplexus:供给生命科学信息库,协助公司更快地开发精确的疗法。
Novadiscovery:运用临床前和临床研讨数据模仿药物对患者的影响,猜测药物效果。
Exscientia:着重以患者为中心的精准药物研制,经过托付CRO、客户协作及公司自有试验渠道定向发生有价值的高质量数据。
LAION-5B:一个包含58亿图文数据的数据库,为AI绘画等使用供给了丰厚的数据支撑。
Danbooru:一个图片查找和共享网站,供给了很多动漫、漫画、游戏图片,为二次元画风AI绘画供给了数据根底。
AI数据库的来历多样,包含公共数据资源、企业内部数据、第三方数据服务、开源数据集等。这些数据来历为AI数据库供给了丰厚的数据资源,为人工智能技能的开展供给了有力支撑。
下一篇: 大数据剖析项目,大数据剖析项目概述