新闻中心

EEPW首页 > 智能计算 > 业界动态 > Nvidia:GPU激发转型 突破过去无法达成的分析工作

Nvidia:GPU激发转型 突破过去无法达成的分析工作

作者:​ 王岫晨时间:2021-08-10来源:CTIMES收藏

数据科学家Deborah Tylor,坚持不懈的运用正确的工具,达成原本以为做不到的事情。Deborah Tylor负责整理美国国税局 (IRS) 超过 300 TB 的庞大数据库,从中找出可能有助于发现身份盗用和其它诈欺行为的模式。但就算她在一大排 CPU 服务器上彻夜运行整理工作,依旧摸不着头绪。她隔天早上发现没有成功,于是又试了一次,结果再次失败。 图片.png

本文引用地址:http://www.eepw.com.cn/article/202108/427472.htm

最新版的 Cloudera Data Platform 加上由 NVIDIA 加快运行速度的 Spark 3.0,协助一支团队提升作业表现达八倍。

Cloudera 的 Nasheb Ismaily 差不多就在同一时间,敲了敲 Tylor 的主管 Rahul Tikekar 办公室的门,Tikekar 也是国税局数据分析师技术支持团队的主管。这名 Cloudera 的解决方案工程师询问 Tikekar 的团队有没有用过 Cloudera Data Platform (CDP),以发挥 以 加速的 Apache Spark 3.0 软件的优势。
Tikekar 表示,我欣然接受这个提议。我们的独立服务器上装有 NVIDIA 显示适配器,在分布式丛集上使用 Spark 来运行这些显示适配器也有一段时间了,这对我们来说时机刚刚好。
他们很快就进行软件测试,在没有更动程序代码的情况下,Tylor 很多的工作执行速度提升高达五倍,不过还是出现了一些延迟。
Ismaily 找来 NVIDIA 的数据科学家协助检查程序代码,很快就确认 CPU 上还运行着一些数据结构特别差的任务。他们写了程序代码来处理这些工作,并且把它插入 Spark 的 RAPIDS (在 上进行数据分析的开源函式库) 软件接口里。Tylor 又试了一次。
Tikekar 说,数据突然全都进入分布式 Spark 丛集的 上,加速成果非常显著,Deborah 现在在有四个节点的丛集上运行整个程序。
美国国税局研究与应用分析及统计部门的技术主管 Joe Ansaldi 表示,Cloudera 与 NVIDIA 的整合让我们能够从数据中找出宝贵的洞察,以支持关键的任务。我们正运用这个组合,且已经看到数据工程和数据科学工作流程的执行速度提高了十倍以上,而且成本还少了一半。
IRS 团队已经着手探索这项工作带来的一些回报。他们使用搭载 GPU 的服务器组成的 Spark 丛集,可以加快处理手边的各项工作,还能执行过去以为做不到的事情,而这些工作可以协助处理该团队所拥有的大型数据集。Tikekar 表示,在 Spark 3.0 出现前,我们做不到这些,但现在有 GPU 可以让我们放手一搏,解决曾经不可能解决的问题。
规画发展人工智能(AI)的路线
这支团队计划应用他们在数据准备的成功经验,即数据分析的撷取、转换和加载 (ETL) 作业。下一个重大计划便是加快全面发展 AI 推论工作。
Tikekar 表示,跟 Cloudera 和 NVIDIA 合作,帮助我们发挥丛集中 GPU 的优势。市场上出现这么进步的技术,我们要花点时间才能认清它们的实力,还有开发出能够运用它们的应用,Deborah 为我们规划了一条新的路线,她是我们故事的英雄。
说得更具体一点,这支团队想要建立大型深度学习神经网络,以解决自然语言处理和分析的问题。
这是当下许多企业想要透过机器学习进行的转型。
拥有计算机科学博士学位的 Tikekar 表示,机器学习带来了无穷的可能,让我们能够做到从前无法完成的事情。Tikekar 在 13 年前加入国税局之前,曾在南奥勒冈大学 (Southern Oregon University) 任教十年。
他进一步表示,例如我们可以扫描表格,然后用光学字符识别技术来读取里面的只字词组,但有了 AI,我们还可以更深入从表格中找出有助于发现身分盗用,或是减少浪费的模式,AI 在很多方面都能嘉惠不少应用。



关键词: Nvidia GPU

评论


相关推荐

技术专区

关闭