【PConline 技术】毋庸置疑,当前我们正身处在人工智能的时代当中,在我看来,对于人工智能来说其背后最重要的无疑就是数据所产生的价值,对于人工智能当中的数据来说一直有一个被称之为“数据集”的概念,它是根据数据的性质、类型和领域等对数据进行划分的一种规则,我们日常所感受到的“智能化”的改变很多也是来自于数据集当中的技术体现。 对于人工智能的背后数据来说可以说是至关重要的一个环节,如果少了这些数据,可以说机器学习和深度学习模型几乎什么都干不了了,通过创建数据集能够让人工智能模型在进行平时训练的过程当中变得更加容易。 让人兴奋的是,在海量的实验数据集当中有很多非常有价值的数据集组成了后来人工智能的“学术基准线”,从而被很多的研究人员开始引用,尤其是在很多算法的比对方面,像MNIST、CIFAR 10以及Imagenet等应用都是遵循了这一基准线。 那么对于人工智能领域当中,究竟有哪些时延数据集是非常有用的呢?接下来我们就一起来看看。 MNIST 这是一个针对小型灰度手写数字的数据集,其开发时间再20世纪90年代,最初其主要用于测试当时最为复杂的一些模型,如今MNIST数据集可以帮助更多的视觉深度学习去进行教学应用,很多版本的数据集已经舍弃了原始的特殊二进制的格式,转而采用标准的PNG格式,这样做的好处就是可以方便在现在很多大型代码库当中用户可以进行正常的工作流操作。 值得一提的是,如果用户只是单纯想使用与原始同样的单输入通道的话,只需要在通道轴当中选取单个应用就可以了。 CIFAR10 CIFAR10数据集拥有十多个类别,其中多达60000张32*32像素的彩色图像,这当中包含了50000张训练图像和10000张测试图像,里面平均每种图像的数量超过6000张之所,它们被广泛应用于测试新算法的性能。 CIFAR10版本的数据集舍弃了原有的特殊二进制格式,也是采用了标准的PNG格式,从而方便了目前大多数代码库中作为正常的工作流进行使用。 CIFAR100 和前文所提到的CIFAR10类似,CIFAR100只是拥有了超过100种类别,其中每一个类别当中包含了600张图像,在这600张图像当中不仅包含了500张训练图像,还包含了100张测试图像。 通过对100个类别进行20多个细节类别的划分,使得其中每一个数据集当中的每一张图像都自带一个精细化的标签和一个粗略的标签,而这些表现则分别隶属于所属的超类当中。 Caltech 101 这个数据集当中包含了101种物品的图像,其中平均每个类别拥有超过800张图像,其中很大一部分类别的图像数量固为50张左右。每张图像的大小约为300*200像素。本数据集也可以用于目标检测定位。 Oxford-IIIT Pet Oxford-IIIT Pet数据集当中包括了37种宠物类别的图像数据集,其中每个类别大概拥有超过200张图像,这些图像在动物的比例、姿势和光照等诸多方面均有着丰富的变化,这个数据集也可以用于目标检测的定位应用。 自然语言的处理 IMDb Large Movie Review Dataset 用于情感二元分类的数据集,其中包含25000条用于训练的电影评论和25000条用于测试的电影评论,这些电影评论的特点是两极分化特别明显。另外数据集里也包含未标记的数据可供使用。 人工智能与数字化之间的联系 在很多行业当中,人工智能领域会遵循数字化的发展规律和浪潮,也就是说把本是模拟的东西或者是抽象的东西全部用数字化的形式表现出来,许多行业的数字化革命首先创造出了数字数据。 这样一来就可以发现一些数据科学,用户可以从当中获得更多的见解,人工智能的背后只有在真正获取了数字数据之后,人工智能才可以非常高效地利用这些数据创造出更大的价值来。 在我看来,真正的人工智能组织在数据采集方面是非常复杂的,并且具有的战略性要求也非常之高。例如,你在一个区域发布了一个产品,如果你可以拥有足够的数据来推出足够好的产品,那么你可以纳入正反馈循环,让用户帮助你生成更多的数据。更多的数据会使产品更好,然后你就会有更多的用户。而且这个积极的反馈循环可以让你不断地积累数据,所以也许在几年后你就可以拥有一个相当可靠的生意。 这就好像当今很多大型网络搜索引擎那样具有令人难以置信的宝贵数据资产和数据价值一样,在海量用户通过搜索引擎进行很多特定事物和网页进行搜索的过程当中,该数据资产对于构建一个好的网络搜索引擎就是非常有价值的。 AI做支撑,究竟是什么体验 对于人工智能来说,当前有很多企业和公司通过运用人工智能技术和应用来推动公司进行转型,甚至去引发一些新型公司的兴起,对于当今很多互联网公司来说其根本其实并不是在运营一个网站,而是管理者是否能够设计出一个公司,从而能够充分利用互联网去提供很多新功能,这点对于人工智能时代来说或许是最大的改变。 近些年伴随着人工智能技术的兴起和应用,已经有很多公司正在不断研究如何构建一家公司去使用人工智能的诸多功能,就像建立一个网站不会让你成为一个互联网公司一样,在机器学习问题上做一点东西也不会让你成为一个AI公司。 编辑的话 对于人工智能应用来说,从技术的创新到应用的落地,是推动整个产业和社会走向智能化的重要推动力,本期我们通过对实验数据集在整个人工智能应用和企业应用进行分析让我们感受到了人工智能时代的到来对于改善未来工作与生活方式起到了至关重要的推动作用,同时面对激烈的市场竞争的挑战,人工智能技术的应用也将会帮助更多的企业用户猎取更大的市场空间和机遇。[返回频道首页] |
正在阅读:科普一分钟 | 人工智能当中究竟什么是最重要的科普一分钟 | 人工智能当中究竟什么是最重要的
2018-11-17 00:15
出处:PConline原创
责任编辑:zhangxiaomeng