取代浏览器插件调试，VS Code 整合 JS 调试工具

*近，Microsoft Edge 官博宣布，JavaScript 调试现已内置到 Visual Studio Code 代码中，因此不需再次使用浏览器调试。

调试.js程序，无需安装任何扩展。用户只需按 F5 或激活菜单栏中的调试图标并选择”运行和调试”即可开始会话。或者用户使用 Visual Studio Code 的代码命令控制板并运行”调试：打开链接”，通过Visual Studio Code编辑器，用户可以直接选择Chrome、Microsoft Edge调试.js而无需安装任何扩展。

%title插图%num

来源于微软官网

如果用户选择内嵌的Microsoft Edge调试器，用户只需要注意到调试工具栏中的附加功能：检查按钮。

%title插图%num

来源于微软官网

这个检查按钮会在 Visual Studio Code 代码运行过程中直接启动 Microsoft Edge调试工具。*次点击此按钮时，用户需要安装用于 Visual Studio Code 调试 JavaScript 程序的 Microsoft Edge调试器插件。*次安装成功后，以后就不会弹出这个提示框。

%title插图%num

来源于微软官网

用户也可以检查 DOM、更改 CSS，并可以在查看相关代码程序的情况下，同时查看在浏览器中运行的项目的网络请求。

%title插图%num

来源于微软官网

用户还可以使用调试器中的调试控制台与浏览器中的文档进行交互，就像在浏览器开发人员工具中使用控制台一样。用户可以完全访问窗口对象，并使用控制台控制程序 API。

%title插图%num

来源于微软官网

如果用户想自动连接到 Microsoft Edge 并在编辑器中启动开发人员工具，则可以创建启动.json文件。请注意，”https://localhost:8080″可能需要为您的项目更改。

%title插图%num

来源于微软官网

假如用户还想深入了解 Visual Studio Code 的内置 Java Script 调试工作流的功能，可以检查调试器扩展的 README 文件。

参考链接：

https://blogs.windows.com/msedgedev/2021/07/16/easier-debugging-developer-tools-in-visual-studio-code/

舍弃高通？谷歌推 Tensor 自研芯片

提起高通，人们*熟悉的无非是Snapdragon（骁龙）芯片，这款曾被国内手机制造商小米“吹火”的移动端芯片，在中国华为麒麟芯片被美国制裁，只能停留于图纸时，Snapdragon芯片一时间风光无限，如今也显得落寞，因为Snapdragon芯片可能被谷歌抛弃了。

%title插图%num

（来源于谷歌官网）Pixel 6 将首发 Tensor 芯片

%title插图%num

谷歌推出Tensor芯片

这周一，谷歌宣布推出搭载自研Tensor（引量）芯片的Pixel 6智能手机，Tensor芯片将取代原先安装在Pixel手机中的高通 Snapdragon 芯片。自2016年推出首款Pixel手机以来，高通一直在向谷歌提供芯片。

在谷歌宣布这一消息后，高通公司股价下跌0.6%。

谷歌公司CEO桑达尔·皮查伊（Sundarichai）也在推特上发布消息：”Tensor 是建立在我们20多年的计算机研究基础之上，迄今为止，这是我们在Pixel手机领域*大的创新，’*具创新性的人工智能和机器学习’技术，为Pixel 6用户带来全新的功能，以及对现有功能的改进”。

%title插图%num

来源于桑达尔·皮查伊推文

Tensor代号为Whitechapel，它将提升智能手机的机器学习能力，Tensor 可以让设备能够更快、更准确地处理图像和视频，新芯片的安全性也得到了升级。Pixel系列的语音识别和分析功能也来源于Tensor芯片，还附带实时音频翻译等功能。关于Whitechapel的传言已经流传了一年多，谷歌于2016年开始构建自己的计算机芯片，但直到现在才可以真正使用。从某种意义上说，制造芯片只是这家科技巨头走向独立于其他科技公司的又一步，尤其是在硬件领域。该芯片可能还通过相机功能和谷歌助手等本地服务提升谷歌Pixel手机的体验效果。

越来越多的科技巨头正在寻求芯片独立性，以便它们与竞争对手抗衡中更具有竞争力，而半导体行业也受到供应链中断和地缘政治不确定性的困扰。例如，苹果去年宣布，它将用自己的内部M1芯片取代Mac系列中的英特尔芯片。

%title插图%num

芯片代工厂目前不知

谷歌没有透露谁将生产Pixel手机的Tensor芯片，但知情人士透露，三星可能以其先进的5纳米制造工艺为谷歌芯片代工生产，对此三星拒*置评。但是谷歌此前曾与芯片设计师Broadcom合作，为其大型数据中心服务器开发拉伸处理单元。五年多来，该公司一直在其数据中心使用TPUS，以加速定制AI算法的计算，以帮助识别和分析云中的图像、语言、文本和视频。全球*大的芯片制造商台湾半导体制造公司负责这些芯片的生产。由此芯片代工厂台积电可能性大一点，毕竟台积电拥有全球*先进的芯片制造工艺。

这次谷歌公布其自己研发的手机芯片，也在某种程度上警示国内手机制造商，芯片必须掌握在自己手上。也让我们叹息麒麟芯片命运多舛，国内芯片之路任重而道远。

PS：根据*新消息，高通方面已发布声明，表示将在骁龙相关产品方面继续与谷歌合作。谷歌可能会在后续推出的Pixel 5a等非旗舰机型中采用骁龙芯片，而5G调制解调器的限制也使得谷歌无法一时摆脱高通。同时按照谷歌官方的解释，并没有明确表示不会搭载骁龙芯片。

聚焦IT系统稳定性保障服务 PerfMa笨马网络完成亿元级B轮融资

近日，国内专注于IT系统稳定性保障的企业服务公司——杭州笨马网络技术有限公司（下称“PerfMa笨马网络”）宣布完成由博华资本领投，老股东高瓴创投跟投的亿元级B轮融资。这是该公司继今年1月份完成1.5亿人民币A++轮融资之后，再一次获得创投资本的青睐。

据了解，PerfMa自成立以来，致力于打造一站式IT系统稳定性保障产品解决方案，专注于性能评测与调优、故障根因定位与解决，为企业提供一系列技术产品与专家服务，提升IT系统的研发效率与运行质量。

PerfMa笨马网络创始人兼CEO李嘉鹏表示，本轮融资资金将主要用于优秀人才的引进、产品矩阵的研发，以及市场拓展等方面。“未来，PerfMa将秉承技术创新驱动美好未来的使命，持续布局整个IT系统稳定性保障产品矩阵，致力成为*的泛运维领域IT系统稳定性保障基础设施软件提供商，更好地为国内外各类企业服务，帮助其在实现业务快速发展的同时，不再为IT系统稳定性担忧。”

博华资本管理合伙人广东表示：“高效敏捷的开发-测试-运维体系已经成为企业满足终端客户动态、实时、多样需求的必经之路，这其中蕴含着巨大市场机会。PerfMa凭借其深厚的技术实力和产品经验以及无与伦比的创业热情奠定了其独特的竞争优势和*的市场地位。博华愿不遗余力助力公司建立覆盖开发-测试-运维全流程的IT系统稳定性产品平台。”

高瓴创投合伙人李强表示：“中国企业急速的数字化、智能化转型浪潮，对IT系统稳定性保障提出了更高要求。创始人李嘉鹏带领下的PerfMa团队，拥有前瞻眼界、深厚的技术经验以及强烈的创新热情，他们打造出的从社区、产品、到服务的一站式解决方案，有力地为企业的系统稳定性保驾护航，取得了显著的市场声誉。我们相信在PerfMa在嘉鹏的带领下，PerfMa将持续精进产品、不断为用户创造价值。”

%title插图%num

IT系统稳定性保障赛道首个玩家

服务两百多家各行业头部企业

PerfMa笨马网络成立于2017年9月，是国内首家专注IT系统稳定性保障的企业，其初创团队都来自于蚂蚁金服，金融科技行业的背景帮助他们在创业初期能快速切入金融行业。创业之初，PerfMa创始团队凭借自身的技术积累和对行业技术架构的深入理解，在短时间内助力两百多家各行业头部企业落地了一系列的IT系统稳定性保障产品，保障了企业IT系统的稳定运行，提升了整体研发测试效能，并节省了大量的资源成本，充分展现了其在IT系统稳定性保障领域的技术深度及落地实力。

一般而言，传统企业在数字化转型过程中通常会面临许多技术性难题，例如很多企业缺乏专业的底层技术团队，IT系统都是找多家外包公司分别开发，而且集中式与分布式系统并存，大型机小型机与X86服务器共存。为适应企业的需求，PerfMa以客户的实际问题为出发点，利用技术经验和新思维解决问题。通过逐步探索行业、深入挖掘客户需求，PerfMa将产品线从性能领域拓展到整个IT系统稳定性保障领域，从性能、正确性、安全性、高可用性等多方面进行全方位保障，进而开创了“IT系统稳定性保障”这条新的赛道。

%title插图%num

深耕金融、零售、运营商、新能源等行业

构建IT系统稳定性保障服务大生态

成立不到4年时间，PerfMa笨马网络凭借在IT系统稳定性保障领域扎实的技术和产品，已覆盖服务金融、零售快消、运营商、能源电力、航空物流、生产制造、第三方支付等多个行业，如国泰君安、兴业证券、平安证券、东方证券、招商银行、光大银行、太平洋保险、恒生电子、南方电网、翼支付、易宝、爱马仕、丝芙兰、达美乐等皆与PerfMa达成了深度战略合作。

针对客户在IT系统稳定性领域的难题，PerfMa提供的从社区到产品、再到服务的一站式IT系统稳定性保障解决方案，满足了降本增效、降低IT系统稳定性隐患、保证前端服务效果以创造更大商业价值等需求，获得了客户的广泛赞誉。此外，据了解，PerfMa也对旗下多款产品进行了国产化适配及探索性测试，以加快对国产化平台的兼容性适配。

在此基础上，PerMa为客户创造了多个行业*：在太平洋保险建设了保险行业*个全流程高效协同的自动化全链路性能测试平台，结合深度性能监控与诊断技术充分暴露性能问题，建立起了全面的性能质量基线追踪与度量体系，为数百个系统保驾护航，实现了生产环境两年多无重大性能故障；为东方证券落地了国内券商行业首个全链路压测和性能分析平台等。

%title插图%num

开源+人才培育

夯实大生态地基

在注重商业发展的同时，PerfMa笨马网络更着眼于社会价值的创造。针对IT系统稳定性领域的关键组成部分——性能，在创始人兼CEO李嘉鹏的支持下，PerfMa主导创建了国内*大的性能技术社区HeapDump.cn，国际化站点HeapDump.com也在规划当中，社区沉淀了大量技术问答以及疑难案例、技术干货，并且上线了JVM参数调优，性能调优工具等免费在线课程。目前HeapDump性能技术社区已成为国内优秀技术社区代表，吸引了二十万以上的开发者参与互动和行业交流。

值得一提的是，PerfMa在今年1月发布了一款性能领域的开源产品——XPocket，其被称为性能分析领域的乐高，在它的背后是一套行业工具协同的标准和规范，通过汇聚各种优秀的性能分析工具于一体，可为性能问题的排查调优提供无限可能，进而帮助提升国内IT系统性能调优的整体技术实力。据悉，PerfMa正在与信通院等国家信息技术标准制定机构一起合作，预期在混沌工程、可观测性以及诊断调优等方向推进一些标准的制定，同时在XPocket插件生态完善上，未来将会实现完整覆盖CPU、线程、内存、网络、磁盘、IO、数据库、缓存、消息以及Web容器等领域。

由于IT系统稳定性保障服务需要配备不同精度的专业人才，对问题根因的诊断和调优无疑是*具挑战的一件事情。PerfMa正在积*联合全国部分高校开展专业领域的合作并以开设专属课题做定向培养的方式，为IT系统稳定性保障领域输送更多的专业人才，为全行业的水平提升和技能输出做贡献。

可以看到，PerfMa正在通过XPocket开源项目、国家行业标准、专家社区、高校合作，形成一个IT系统稳定性问题诊断调优的产学研闭环。

深厚的技术积淀、持续的创新能力、专业的人才团队为PerfMa笨马网络在IT系统稳定性保障赛道筑起了牢固的护城河。可以预见，在多轮优质创投资本的加持下，PerfMa在持续夯实技术、产品实力的同时，也将进一步实现市场规模的扩张，正如其愿景所言，“成为百万企业IT系统的稳定性保障专家”。

维基媒体宣布采用 Vue.js 进行前端开发

维基媒体工作人员 Volker E. 在官网宣布， Vue.js 被选为维基媒体官方 JavaScript 框架。前端架构评估工作于 2019 年正式启动，作为平台演进计划（Platform Evolution）的一部分，目标则是希望通过技术为维基媒体平台赋能和优化开发流程。

据官方消息透露，相关的技术 RFC 已于 3 月成功解决。由于前端框架的选择是范围广泛的长期决策，他们特成立了一个专门的前端工作组，来进行技术框架的比较和*终决策。

他们希望开发人员先在试点项目中进行开发和测试，选定的试点项目会基于 Vue.js 的 TypeaheadSearch 功能在桌面端进行改进提升，TypeaheadSearch 技术允许搜索时还能提供额外的上下文。自今年 3 月份以来，新组建 TypeaheadSearch 已应用到 15 个不通大小的 wiki 默认组件上，并且收到了积*的用户反馈。据*终的开发人员满意度调查问卷结果显示，Vue.js 对未来开发产生了非常积*的影响，开发人员感到非常满意，并且愿意推荐 Vue.js 给他们的团队使用。

此外，维基媒体为支持进一步的迁移工作，还成立了维基媒体设计团队，来进行持续的工作优化：

准备了一个共享的 Vue.js 用户界面组件库
设置了 Vue 2 或 Vue 3 转换路径
搞清如何在 MediaWiki 内外构建和分发组件库

这项工程他们已体验了一段时间，目前正在优先考虑如何进行整合、年度计划跟全员会议，于是便有了今天的这个官宣消息。

面面俱到，这 23 个公共数据集赶紧Mark起来！

巧妇难为无米之炊，机器学习或深度学习的开发者常常为寻找合适的训练数据集而烦恼，除了常用的 Iris 数据集示例外，机器学习和深度学习领域还有哪些公共数据集呢？本文作者介绍一些个人*喜欢的 23 个数据集。不仅会介绍数据集和样本，而且还会介绍使用这些数据集的一些注意事项。

帕尔默企鹅数据集（Palmer Penguin Dataset）

1.1 数据集

这是迄今为止我*喜欢的数据集。如果你厌倦了 Iris 数据集，不妨试试这个。该数据集由 Kristen Gorman 博士与帕尔默站（美国设立的南*科学考察站）共同创建。该数据集由两个数据集组成，每个数据集包含 344 只企鹅的数据。

%title插图%num

图源：rubikscode

与 Iris 数据集类似，该数据集包含来自帕尔默群岛 3 个岛屿的 3 种不同种类的企鹅。这三种企鹅分别是阿德利企鹅（Adelie）、颊带企鹅（Chinstrap）和巴布亚企鹅（Gentoo）。“Gentoo”听起来是不是很耳熟？因为 Gentoo Linux 就是以它命名的！另外，这些数据集还包括每种企鹅的嘴峰长（自鸟嘴基生羽处至上喙先端的直线距离）。在简化版的企鹅数据中，嘴峰的长度和高度分别被重命名为变量 culmen_length_mm 和 culmen_depth_mm。

1.2 数据集样本

下面，我们来加载数据：

data = pd.read_csv(f".\\Datasets\\penguins_size.csv")data.head()

%title插图%num

请注意，我们在数据可视化中使用了 Pandas 库。此外，我们加载的是一个简化版的数据集。

1.3 该数据集的适用范围

该数据集非常适合练习解决分类和聚类问题。你可以通过它尝试各种分类算法，例如决策树、随机森林、SVM，或对数据集进行调整后，用它来解决聚类问题和练习无监督学习。

1.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

基本信息：https://allisonhorst.github.io/palmerpenguins/articles/intro.html
GitHub主页：https://github.com/allisonhorst/palmerpenguins
Kaggle主页：https://www.kaggle.com/parulpandey/palmer-archipelago-antarctica-penguin-data

%title插图%num

共享单车需求数据集

这个数据集非常有趣。虽说对于初学者来说有点复杂，但正因如此，它可以作为很好的练习。该数据集包含美国华盛顿特区共享单车计划的自行车租赁需求数据。共享单车与租赁系统通常都是很好的信息来源。特别是，该数据集不仅包含有关出行持续时间、出发地点、到达地点和花费时间等信息，而且还包含每个特定时间和日期的天气信息。

2.2 数据集样本

下面，我们来加载数据：

data = pd.read_csv(f".\\Datasets\\hour.csv")data.head()

%title插图%num

每天的数据：

data = pd.read_csv(f".\\Datasets\\day.csv")data.head()

%title插图%num

2.3 该数据集的适用范围

由于该数据集包含的信息种类繁多，因此非常适合练习解决回归问题。你可以尝试多元线性回归或神经网络。

2.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

UCI主页：https://archive.ics.uci.edu/ml/datasets/bike+sharing+dataset
Kaggle主页：https://www.kaggle.com/c/bike-sharing-demand

%title插图%num

葡萄酒分类数据集

这是一个非常经典的数据集，特别是如果你喜欢种葡萄或希望成为侍酒师的话。该数据集由两个数据集组成。两者都包含来自葡萄牙 Vinho Verde 地区的葡萄酒的化学计量，一个记录的是红葡萄酒，另一个是白葡萄酒。由于隐私限制，该数据集中不包含有关葡萄种类、葡萄酒品牌、葡萄酒售价的数据，但是包含了关于葡萄酒质量的信息。

3.2 数据集样本

下面，我们来加载数据：

data = pd.read_csv(f".\\Datasets\\winequality-white.csv")data.head()

%title插图%num

3.3 该数据集的适用问题

该数据集非常适合解决多元分类问题，也可用于回归问题。由于数据集中的类别不平衡（例如，正常葡萄酒的数量超过了优质或劣质的葡萄酒），因此非常适合不平衡数据集的分类问题。除此之外，并非所有特征都是相关的，因此也可用于练习特征工程和特征选择。

3.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

基本信息：https://www.vinhoverde.pt/en/about-vinho-verde
UCI主页：https://archive.ics.uci.edu/ml/datasets/Wine+Quality

%title插图%num

波士顿住房数据集

这个老牌数据集非常经典。许多教程、示例和书籍都使用了波士顿住房数据集，当然理由也非常充分。该数据集由 14 个特征组成，包含美国人口普查局收集的有关马萨诸塞州波士顿地区住房的信息。这是一个只有 506 个样本的小数据集。

4.2 数据集样本

下面，我们来加载数据：

data = pd.read_csv(f".\\Datasets\\boston_housing.csv")data.head()

%title插图%num

4.3 该数据集的适用范围

该数据集非常适合练习解决回归任务。请注意，由于这个数据集很小，所以你会得到乐观的结果。

4.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

基本信息：https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html
Kaggle主页：https://www.kaggle.com/c/boston-housing

%title插图%num

电离层数据集（Ionosphere Dataset）

这个数据集也有一些年头了，它诞生于1989年。但是，该数据集非常有趣，其中包含由加拿大拉布拉多鹅湾的雷达系统收集的数据。该系统由 16 个高频天线的相控阵列组成，旨在检测电离层中的自由电子。一般来说，电离层有两种类型的结构：“好”与“坏”。这些雷达检测到这些结构并传递信号。该数据集包含 34 个自变量和 1 个因变量，以及总共 351 个观测值。

5.2 数据集样本

下面，我们来加载数据：

data = pd.read_csv(f".\\Datasets\\ionsphere.csv")data.head()

%title插图%num

5.3 该数据集的适用问题

很显然，该数据集非常适合解决二元分类问题。有趣的是，这是一个不平衡的数据集，所以你也可以进行相应的练习。此外，想在该数据集上实现高精度并不容易，基准表现大约为64%，*高精度为94%左右。

5.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

UCI主页：https://archive.ics.uci.edu/ml/datasets/Ionosphere

%title插图%num

Fashion MNIST数据集

MNIST 数据集是一个有名的练习图像分类和图像识别的数据集。但是，它有点过度使用了。如果你想要一个简单的数据集来练习图像分类，则可以试试 FashionMNIST。你可以利用这个数据集解决机器学习终*指南中的图像分类示例。

本质上，这个数据集是 MNIST 数据集的变体，它与 MNIST 数据集具有相同的结构，其中包含由 60,000 个服装图像样本组成的训练集和由 10,000 个服装图像样本组成的测试集。所有图像都经过了尺寸的标准化以及居中处理。图像的大小固定为 28×28，因此基本上不需要进行图像预处理。有些框架（如 TensorFlow 或 PyTorch）中包含了该数据集。

6.2 数据集样本

下面，我们来看看示例样本：

%title插图%num

6.3 该数据集的适用问题

该数据集非常适合图像分类和图像生成任务。你可以使用简单的卷积神经网络（CNN）进行尝试，或者使用生成对抗网络（GAN）来生成图像。

6.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

GitHub主页：https://github.com/zalandoresearch/fashion-mnist
Kaggle主页：https://www.kaggle.com/zalando-research/fashionmnist

%title插图%num

猫、狗图像数据集

这是一个猫狗图像数据集，其中包含 23,262 张猫与狗的图像，用于二元图像分类。主文件夹下面还有两个文件夹：train1 和 test。

train1 文件夹包含训练图像，而 test 包含测试图像。请注意，图像名称以 cat 或 dog 开头。这些其实就是标签，这也意味着你可以利用这些名称定义目标。

7.2 数据集样本

下面，我们来看看示例样本：

%title插图%num

7.3 该数据集的适用范围

该数据集主要有两种用途：首先，可用于练习图像分类以及对象检测；其次，相信每个人看到这些萌照都会尖叫不已。

7.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

基本信息：https://www.microsoft.com/en-us/download/details.aspx?id=54765
Kaggle主页：https://www.kaggle.com/c/dogs-vs-cats

%title插图%num

威斯康星州乳腺癌（诊断）数据集

医疗保健行业使用机器学习和深度学习技术的人数正在稳步增加。如果你想试试看此类数据集，则可以考虑该数据集。该数据集中的数据是通过处理乳房肿块的细针穿刺的数字化图像提取出来的。每个特征都描述了数字化图像中发现的细胞核的特征。

该数据集由 569 个样本组成，其中包括 357 个良性样和 212 个恶性样本。该数据集中有三类特征，其中实数类型的特征*有用。它们是从数字化图像计算出来的，包含有关区域、细胞半径、纹理等信息。

8.2 数据集样本

下面，我们来加载数据：

data = pd.read_csv(f".\\Datasets\\breast-cancer-wisconsin.csv")data.head()

%title插图%num

8.3 该数据集的适用范围

这是非常适合练习分类以及使用随机森林、SVM 等算法的医疗保健数据集之一。

8.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

kaggle主页：https://www.kaggle.com/uciml/breast-cancer-wisconsin-data
UCI主页：https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)

%title插图%num

推特情绪分析与情感 Sentiment140 数据集

近年来，情绪分析成了监控和了解客户反馈的重要工具之一。这种检测消息和回复所携带潜在情感基调的方法已经完全自动化，这意味着企业可以更好、更快地了解客户的需求，并提供更好的产品和服务。

这种检测可以通过应用各种自然语言处理（NLP）技术来完成。这些数据集可以帮你练习此类技术，而且非常适合该领域的初学者。Sentiment140 包含通过 Twitter API 提取的 1,600,000 条推文。它们的结构略有不同。

9.2 数据集样本

下面，我们来加载数据：

data = pd.read_csv(f".\\Datasets\\training.1600000.processed.noemoticon.csv")data.head()

%title插图%num

9.3 该数据集的适用范围

如前所述，这是一个用于情感分析的数据集。情感分析是*常见的文本分类工具。这是通过分析文本片段确定情感的过程，可确定情感是是积*的、消*的还是中性的。了解品牌和产品的社会情感是现代企业必不可少的工具之一。

9.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

Kaggle主页：

https://www.kaggle.com/c/twitter-sentiment-analysis2
https://www.kaggle.com/kazanova/sentiment140

%title插图%num

BBC新闻数据集

这也是一个有趣的文本数据集。该数据集来自 BBC 新闻，由 2225 篇文章组成，每篇文章都有标签。一共 5 个类别：科技、商业、政治、娱乐和体育。该数据集非常均衡，每个类别的文章数量都差不多。

10.2 数据集样本

下面，我们来加载数据：

data = pd.read_csv(f".\\Datasets\\BBC News Train.csv")data.head()

%title插图%num

10.3 该数据集的适用范围

该数据集非常适合文本分类。你也可以更进一步，分析每篇文章的情感。总的来说，该数据集适用于各种自然语言处理任务和实践。

10.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

Kaggle主页：https://www.kaggle.com/c/learn-ai-bbc

%title插图%num

垃圾短信分类器数据集

垃圾邮件检测是互联网中*早使用的机器学习任务之一。这类任务也属于自然语言处理和文本分类。因此，如果你尝试解决这类问题，该数据集是一个不错的选择。而且该数据集非常适合初学者。

该数据集的来源有多个，比如 425 条垃圾短信（spam）是从 Grumbletext 网站上抓取的，3,375 条短信是从新加坡国立大学的 NUS SMS Corpus (NSC) 随机选择的非垃圾短信（ham），还有450 条短信是来自 Caroline Tag 的博士论文等。该数据集本身包含两列：标签（ham或spam）和原始文本。

11.2 数据集样本

下面，我们来看看示例样本：

ham What you doing?how are you?

ham Ok lar… Joking wif u oni…

ham dun say so early hor… U c already then say…

ham MY NO. IN LUTON 0125698789 RING ME IF UR AROUND! H*

ham Siva is in hostel aha:-.

ham Cos i was out shopping wif darren jus now n i called him 2 ask wat present he wan lor. Then he started guessing who i was wif n he finally guessed darren lor.

spam FreeMsg: Txt: CALL to No: 86888 & claim your reward of 3 hours talk time to use from your phone now! ubscribe6GBP/ mnth inc 3hrs 16 stop?txtStop

spam Sunshine Quiz! Win a super Sony DVD recorder if you canname the capital of Australia? Text MQUIZ to 82277. B

spam URGENT! Your Mobile No 07808726822 was awarded a L2,000 Bonus Caller Prize on 02/09/03! This is our 2nd attempt to contact YOU! Call 0871-872-9758 BOX95QU

11.3 该数据集的适用范围

顾名思义，该数据集*适合用于垃圾邮件检测和文本分类。此外，也经常用于工作面试。

11.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

UCI主页：https://archive.ics.uci.edu/ml/datasets/sms+spam+collection
Kaggle主页：https://www.kaggle.com/uciml/sms-spam-collection-dataset

%title插图%num

CelebA 数据集

如果你想研究面部检测解决方案、构建面部生成器或创建深度伪造模型，那么该数据集是*佳选择。该数据集拥有 20 多万张名人的照片，每张图像包含 40 个属性注释，可以为你的研究项目提供一个很好的起点。此外，它还包括姿势与背景变化。

12.2 数据集样本

下面，我们来看看示例样本：

%title插图%num

12.3 该数据集的适用范围

该数据集可以解决多个问题。首先，可用于解决各种面部识别与计算机视觉问题；其次，还可用于使用不同的生成算法生成图像；*后，你还可以利用它来开发新的深度伪造模型或深度伪造检测模型。

12.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

基本信息：http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

%title插图%num

YouTube-8M 数据集

这是*大的多标签视频分类数据集。由 Google 创建，拥有 800 万个带有注释和 ID 的分类 YouTube 视频。注释由 YouTube 视频注释系统创建，使用了 48000 个视觉实体的词汇表。该词汇表也可供下载。

请注意，该数据集还提供了 TensorFlow Record 文件格式。除此之外，该数据集还有一个扩展：YouTube-8M Segments 数据集，其中包含经过人工检验的分类注释。

13.2 数据集样本

以下命令可以下载该数据集：

mkdir -p ~/yt8m/2/frame/traincd ~/yt8m/2/frame/traincurl data.yt8m.org/download.py | partition=2/frame/train mirror=us python

13.3 该数据集的适用范围

你可以使用该数据集执行多种操作。你可以通过该数据集开发分类算法，因为它提供了准确的标签。

此外，你还可以创建低成本的视频分类模型。*后，你还可以寻找并分享特定的视频片段（即时间概念定位）。

13.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

基本信息：https://arxiv.org/abs/1609.08675
下载：http://research.google.com/youtube8m/

%title插图%num

亚马逊评论数据集

情感分析是*常见的文本分类工具，我们可以通过分析文本确定情感：积*的、消*的还是中性的。了解客户对品牌、产品或服务情感，同时监控在线对话是现代商业的基本工具之一，而情感分析是实现这一目标的*步。该数据集来自亚马逊的产品评论与元数据，包括 1996 年 5 月～ 2018 年 10 月的 2.331 亿条评论。

14.2 该数据集的适用范围

该数据集非常适合创建产品情感分析的入门模型，你可以使用它来快速创建可用于生产的模型。

14.3 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

基本信息与下载链接：https://jmcauley.ucsd.edu/data/amazon/

%title插图%num

钞票认证数据集

这是一个有趣的数据集。你可以使用它来构建检测真/伪钞的解决方案。该数据集包含大量从数字化图像中提取的数据。这些图像都是通过工业相机（一般用于印刷检查）创建的。图像为 400 x 400 像素，该数据集非常整洁，包含 1372 个示例且没有缺失值。

15.2 数据集样本

下面，我们来加载数据：

data = pd.read_csv(f".\\Datasets\\data_banknote_authentication.csv")data.head()

%title插图%num

15.3 该数据集的适用问题

该数据集非常适合二元分类与各种算法。此外，你还可以修改它，并用它来处理聚类，以及建立无监督学习的聚类算法。

15.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

UCI主页：https://archive.ics.uci.edu/ml/datasets/banknote+authentication#
Kaggle主页：https://www.kaggle.com/ritesaluja/bank-note-authentication-uci-data

%title插图%num

LabelMe 数据集

LabelMe 也是一个计算机视觉数据集，这是一个带有真实标签的大型图像数据库，可用于物体检测和识别。注释有两个不同的来源，其中之一是 LabelMe 在线注释工具。

你可以通过 LabelMe Matlab 工具箱下载所有图像，也可以在线使用图像。

16.2 数据集样本

下面是一个带有标签的数据：

%title插图%num

16.3 该数据集的适用范围

该数据集非常适合物体检测和物体识别。

16.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

基本信息与下载链接：http://labelme.csail.mit.edu/Release3.0/index.php

%title插图%num

Sonar 数据集

如果你对地质学感兴趣，那么可以尝试一下这个数据集。它由声纳信号构成，包含两部分：*部分名为“sonar.mines”，包含 111 个模式，这些模式是在不同角度和不同条件下由金属圆柱体反射声纳信号生成的；第二部分名为“sonar.rocks”，由 97 个模式组成，同样是通过反射声纳信号获得的，但这部分是在岩石上完成的。这是一个不平衡的数据集，包含 208 个示例、60 个输入特征和一个输出特征。

17.2 数据集样本

下面，我们来加载数据：

data = pd.read_csv(f".\\Datasets\\sonar.csv")data.head()

%title插图%num

17.3 该数据集的适用范围

该数据集非常适合二元分类，目标是检测输入是 mine 还是 rock，*高的准确率为 88%。

17.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

基本信息：https://www.is.umk.pl/projects/datasets.html#Sonar
UCI主页：https://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+(Sonar,+Mines+vs.+Rocks)

%title插图%num

皮马印第安人糖尿病数据集

这也是一个用于实践分类的医疗保健数据集，来自美国国家糖尿病、消化和肾脏疾病研究所。目标是根据某些诊断度量预测患者是否患有糖尿病。

该数据集包含 768 个观测值，具有 8 个输入特征和 1 个输出特征。它不是一个平衡的数据集，而且缺失值都被替换为 0。

18.2 数据集样本

下面，我们来加载数据：

data = pd.read_csv(f".\\Datasets\\pima-indians-dataset.csv")data.head()

%title插图%num

18.3 该数据集的适用范围

该数据集适合二元分类问题。

18.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

基本信息：https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.names
Kaggle主页：https://www.kaggle.com/uciml/pima-indians-diabetes-database

%title插图%num

小麦种子数据集

这个数据集非常有趣，而且很简单，非常适合初学者，可以用它来代替 Iris 数据集。该数据集包含三种小麦品种的种子信息：卡马小麦（Kama）、罗萨小麦（Rosa）和加拿大小麦（Canadian）。这是是一个平衡的数据集，每个类别包含 70 个实例。数据是使用软 X 射线技术检测小麦内核结构得出的测量值。

19.2 数据集样本

下面，我们来加载数据：

data = pd.read_csv(f".\\Datasets\\seeds_dataset.csv")data.head()

%title插图%num

19.3 该数据集的适用范围

可以利用该数据集尝试解决问题类题。

19.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

UCI主页：https://archive.ics.uci.edu/ml/datasets/seeds
Kaggle主页：https://www.kaggle.com/jmcaro/wheat-seedsuci

%title插图%num

《危险边缘》问题数据集

这是一个漂亮的数据集，包含 216,930 个危险问题及其答案和其他数据，可用于自然语言处理项目。除了问题和答案，该数据集还包含有关问题类别和价值的信息。

20.2 数据集样本

下面，我们来加载数据：

data = pd.read_csv(f".\\Datasets\\joepardy.csv")data.head()

%title插图%num

20.3 该数据集的适用范围

这是一个丰富的数据集，用途有很多种。可以运行分类算法，并预测问题的类别或问题的价值。但是，该数据集*出圈的用途是训练 BERT 模型。

20.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

Kaggle主页：https://www.kaggle.com/tunguz/200000-jeopardy-questions

%title插图%num

鲍鱼数据集

这是一个面向多分类问题的数据集，但也用作回归问题。目标是预测鲍鱼的年龄。该数据集不平衡，拥有4,177 个实例，8 个输入变量和 1 个输出变量。

21.2 数据集样本

下面，我们来加载数据：

data = pd.read_csv(f".\\Datasets\\abalone.csv")data.head()

%title插图%num

21.3 该数据集的适用范围

该数据集主要有两个用途：回归任务和分类任务。你可以利用它构建多元线性回归、SVM、随机森林等算法，或者构建一个可以解决此类问题的神经网络。

21.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

UCI主页：https://archive.ics.uci.edu/ml/datasets/abalone
Kaggle主页：https://www.kaggle.com/rodolfomendes/abalone-dataset

%title插图%num

虚假新闻数据集

在我们的生活中，虚假新闻、深度造假和其他类型的欺骗满天飞，无论我们喜欢与否。该数据集非常适合自然语言处理任务，其中包含标记的真实和虚假新闻，以及新闻主体和作者。

22.2 数据集样本

下面，我们来加载数据：

data = pd.read_csv(f".\\Datasets\\fake_news\\train.csv")data.head()

%title插图%num

22.3 该数据集的适用范围

该数据集适合自然语言处理文本分类任务。

22.4 参考资源

你可以通过以下链接，找到有关该数据集的更多信息：

Kaggle主页：https://www.kaggle.com/c/fake-news/overview

%title插图%num

ImageNet 数据集

*后一个重要的数据库是计算机视觉数据集之王：ImageNet。该数据集是所有深度学习和计算机视觉突破性发展的基准。没有它，就没有如今深度学习的世界。ImageNet 是一个按照 WordNet 层次结构组织的大型图像数据库，其中的每一个实体都由一组名为 synset 的单词与短语来描述。每个 synset 都包含大约 1000 个图像，层次结构的每个节点都包含成百上千的图像。

23.2 该数据集的适用问题

它是学术与研究领域的首选数据集，主要任务是图像分类，但是也可用于各种不同的任务。

狠起来连自己都不放过？Linux 之父“吐槽”自家的 NTFS

Paragon 作为硬盘管理、存储管理和数据保护提供解决方案的公司，也承担着为 Linux 内核提供 NTFS 驱动程序的任务，*近却被 Linux 内核社区疯狂“吐槽”。

原因是 Paragon 提交到 Linux 内核中读写 NTFS 驱动程序的代码已经一年没有更新了，而在去年 Paragon 试图把长达 27000 行 NTFS 驱动程序放入 Linux 内核中，因为文件数据包太大，Linux 内核社区没办法审核。

%title插图%num

Paragon 去年提交审查的27000行补丁

由于目前 Linux 对 NTFS 的支持能力有限，现有的内核驱动程序仅支持读取功能，另一个驱动器 FUSE（用户空间中的文件系统）驱动程序支持读/写。但与现有的 NTFS 内核驱动或基于 FUSE 的 NTFS-3G 选项相比，NTFS 3 驱动提供了更好的读/写支持和其他功能，因此 Linux 急需 Paragon 公司提供*新的的驱动程序。Paragon 的 NTFS 驱动程序涵盖一个支持完整读写的免费版本，以及一个带分区格式、检查错误和其他功能的付费版本。

日前，Linus Torvalds 曾呼吁 Paragon 提交 NTFS 3 的拉动请求，鉴于Paragon 公司没有人关心新的系统文件如何提交到内核，Paragon 开发人员应该直接向他发送拉动请求。

在过去的一周里，Paragon 软件公司的 NTFS3 驱动补丁进行了27次更新，在 v27 补丁之后，Paragon 公司的开发人员 Konstantin Komarov 回应了 Torvalds 的抱怨：”谢谢您的批评，直到现在，我们对提交 Linux 内核代码的流程还是不太清楚。我们刚刚发送了第 27 个补丁系列，它修复了当前 Linux 内核里一些错误。在发送给您之前，我们需要几天时间准备一个适当的拉动请求。”

Linus Torvalds 担心 Paragon 可能会延迟 Linux 内核代码提交日期，Linus Torvalds 虽然不会在下一个 Linux 合并窗口前拉动它，也鼓励该代码也被拉入 Linux-Next，以便在下个月进一步测试。他还希望六个月后，看见 Paragon 公司关于 NTFS3 的代码出现在Linux内核里。

Linus Torvalds 还补充道，Paragon NTFS3 驱动程序对于 5.14 版内核来说已经为时已晚，rc4 刚刚发布，但可能会包含在 5.15 版中，预计 Paragon NTFS *新的驱动程序将在 Linux 内核的 5.15 版中发布，并在年底前发布。

NTFS 作为 Windows 的默认文件系统，虽然微软开始在某些情况下用 ReFS 替换它，但 NTFS 仍然是 Windows 的通用文件系统。这次 Paragon NTFS3 驱动程序的更新也引起了众多网友的热议。

有网友评论：“除非你使用 Windows，为什么需要 NTFS？”

%title插图%num

也有网友持相反意见：“毕竟*大部分人都是使用 Windows 系统，没有 NTFS 就没办法共享资源”。

%title插图%num

2021 年 8 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

帕尔默企鹅数据集（Palmer Penguin Dataset）

1.1 数据集

1.2 数据集样本

1.3 该数据集的适用范围

1.4 参考资源

共享单车需求数据集

2.2 数据集样本

2.3 该数据集的适用范围

2.4 参考资源

葡萄酒分类数据集

3.2 数据集样本

3.3 该数据集的适用问题

3.4 参考资源

波士顿住房数据集

4.2 数据集样本

4.3 该数据集的适用范围

4.4 参考资源

电离层数据集（Ionosphere Dataset）

5.2 数据集样本

5.3 该数据集的适用问题

5.4 参考资源

Fashion MNIST数据集

6.2 数据集样本

6.3 该数据集的适用问题

6.4 参考资源

7.2 数据集样本

7.3 该数据集的适用范围

7.4 参考资源

威斯康星州乳腺癌（诊断）数据集

8.2 数据集样本

8.3 该数据集的适用范围

8.4 参考资源

推特情绪分析与情感 Sentiment140 数据集

9.2 数据集样本

9.3 该数据集的适用范围

9.4 参考资源

BBC新闻数据集

10.2 数据集样本

10.3 该数据集的适用范围

10.4 参考资源

垃圾短信分类器数据集

11.2 数据集样本

11.3 该数据集的适用范围

11.4 参考资源

CelebA 数据集

12.2 数据集样本

12.3 该数据集的适用范围

12.4 参考资源

YouTube-8M 数据集

13.2 数据集样本

13.3 该数据集的适用范围

13.4 参考资源

亚马逊评论数据集

14.2 该数据集的适用范围

14.3 参考资源

钞票认证数据集

15.2 数据集样本

15.3 该数据集的适用问题

15.4 参考资源

LabelMe 数据集

16.2 数据集样本

16.3 该数据集的适用范围

16.4 参考资源

Sonar 数据集

17.2 数据集样本

17.3 该数据集的适用范围

17.4 参考资源

皮马印第安人糖尿病数据集

18.2 数据集样本

18.3 该数据集的适用范围

18.4 参考资源

小麦种子数据集

19.2 数据集样本

19.3 该数据集的适用范围

19.4 参考资源

《危险边缘》 问题数据集

20.2 数据集样本

20.3 该数据集的适用范围

20.4 参考资源

鲍鱼数据集

《危险边缘》问题数据集