博客专栏

EEPW首页 > 博客 > 开源之道,和而不同 | CCF-GAIR AI 源创专场

开源之道,和而不同 | CCF-GAIR AI 源创专场

发布人:AI源创评论 时间:2020-10-11 来源:工程师 发布文章

AI研习社按:2020 年 8 月 7 日 - 9 日,全球人工智能与机器人峰会(CCF-GAIR 2020)正式开幕。峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。从 2016 年的学产结合,2017 年的产业落地,2018 年的垂直细分,2019 年的人工智能 40 周年,峰会一直致力于打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资平台。

CCF-GAIR 2020 第二天,峰会与 AI 研习社、OpenI 启智社区联合举办“AI 源创专场”,重点讨论了新基建背景下,国内开源创新建设将催生的新势能,以及将引发和促进的新产业机会。

AI 源创专场的策划,酝酿一年之久,形成半年之前。2020 年 1 月 8 日,采访洪强宁的那个下午,洪强宁说了一句让人印象深刻的话,“全世界的程序员是一个共同体”。使这个共同体成为可能的,就是开源。具体报道可参见《“教授”洪强宁和他穿越的技术江湖》。

在此之前,崔宝秋也两次谈及多年追随开源的心路历程,作为雷军同寝室的同学,崔宝秋毕业之后先去了中科院计算所读博士,1995 年去纽约州立大学石溪分校继续深造。他开始接触自由软件和开源软件,博士论文涉及的代码也全部开源。无论后来在 IBM、雅虎、 Linkedin,直到在小米,崔宝秋都是坚定的开源信徒,从未有过动摇。开源也是崔宝秋和 Daniel Povey 惺惺相惜的重要原因。具体报道可参见《小米崔宝秋:开源是软件的未来》。

现任 OpenI 启智平台秘书长和鹏城实验室 AI 开源平台办公室主任的刘明,20 年前就和开源结下了不解之缘。作为一个开源老兵,他曾任全球首个中文 Linux 版本、香港上市企业冲浪 Linux 总经理,还曾担任过永中 Office 总经理,在基础软件领域声名显赫。从民间到庙堂,从西方到东方,刘明的故事正是 20 年中国开源故事的缩影。喜欢八卦的同学,可以阅读左林右狸的知识星球《开源老兵的中国往事》。阅读访问:https://t.zsxq.com/vz3zJeM。

而AI 源创专场的联合主办方,都和开源有着极深的渊源。AI 研习社发轫于早期的雷锋字幕组,那是一群热爱分享的,由985、211高校为主体的AI 爱好者组成的字幕翻译Team,专注于AI领域的海外内容翻译。大家发扬着雷锋精神,通过开源方式组织在一起,高效率的完成翻译任务,再开源分享到社区。如今,它已发展成为拥有20万用户的985、211学生为主体的AI学术青年和开发者的社区。始于开源,成于AI。

OpenI 启智平台更是肩负“新一代人工智能开源开放平台”的使命与梦想,英文名称Open Intelligence,简称OpenI。本次圆桌论坛嘉宾,邀请了陈天健,OpenI理事会理事,微众****AI Group副总经理、专家工程师,联邦学习技术总负责人;邀请了黄之鹏,OpenI技术委员会委员,华为计算开源生态部副总监;邀请了田忠博,OpenI新晋核心成员旷视科技的最新AI开源框架天元的技术负责人。圆桌论坛主持人,正是刘明,OpenI秘书处秘书长。

技术英雄、龙头企业、官方机构,角色不同,济济一堂。本次AI源创圆桌论坛有崔宝秋这样的开源信徒,有旷视田忠博这样的开源新锐,也有走到哪里都有一群程序员粉丝的开源网红,涛思数据创始人陶建辉和一流科技创始人袁进辉。大家各抒己见,碰撞不断,激发听众对开源的深度思考和“强化学习”,这或许就是开源本来的样子,星光闪耀,和而不同。

AI 研习社将圆桌论坛进行了不改变原意的编辑,以下为全文:

一  新基建 7 个内容,哪个跟你最密切?

(主持人)刘明:

今天我们紧扣主题:一是新基建,二是 AI。

AI 发展太快了,去年年底我也是主持,当时在场的天健和宝秋都是老朋友,在启智开发者大会讨论了:第一是 AI 的边界是什么、第二是开源的能量是什么。

现在 AI 的发展真的很快,2016 年讨论的是深度学习技术,第二年讨论数据,去年开始讨论伦理,我们当时定的主题是边界。

今天的主题是三个方面的讨论:一是新基建;二是 AI,而且应该讨论当前最热话题“超级 AI ”;三是开源。

时间比较紧,大家自我介绍就免了,大家都认识了。

我们先讨论新基建,新基建啥意思很多都已知道,我原来所在的单位工信部、还有发改委做了七大领域的规划,什么是新基建?5G、特高压和电力互联网、高铁和轨道交通、新能源汽车充电桩、数据中心和云计算、AI、工业互联网。

我原来在产业界,最早做过中文 Linux 的版本,叫冲浪 Linux,后来在永中 Office,在基础软件领域做了很多事。后来在工信部搞产业研究和促进。

请嘉宾根据自己的理解说一下,七个新基建当中排排序,就讲讲一两个,觉得和你所在的单位,哪个和你最密切?

陈天健:谢谢刘明老师,我是微众****的陈天健。国家进行新一代网络的建设,也会影响未来工业互联网的面貌。新基建一方面是机会,一方面是挑战。

如果基础设施好了、数据多了、算力也强了,但是应用数据的能力,也就是 AI 这块没有很好跟上的话,也大不起来,对从业人员既是机遇也是挑战。

崔宝秋:新基建跟开源都是相关的,像今天咱们的AI源创里面有AI,后面的大数据、5G、工业互联网、新能源充电桩、特高压,我认为都跟开源有关系,比较简单的就是AI的开源、大数据的开源,6G其实跟开源也有关系,这些是今天可以看得到的。

就像今天我演讲中讲的,开源是个模式、开源是个平台、开源是个方法,包括开源硬件,在新基建中都会扮演特别重要的角色。

田忠博:新基建是个整体,几个技术都非常重要。如果让我挑的话,我可能会挑工业互联网,这是人工智能技术发挥非常很大作用的广阔天地,跟中国现在的升级和转型能够非常好的结合在一起。

对于旷视来说,新基建是一个从一到万的新的征程,我们要做好一,在传统工业和新技术加持的工业互联网上打造新的增长点,像我们在机器人和物流方面一直在深耕,希望可以在新的政策和机遇下,可以有新的发展。

陶建辉:我是涛思数据创始人陶建辉。新基建对我们公司来讲,意义特别重大,七个方向,无论是高铁、轨道交通、电力,还是新能源、工业互联网、云计算、数据中心,都和我们公司做的东西密切相关。

因为我们是做数据采集的处理,我相信世界上经过 90% 的数据都是机器采集的数据,包括电网、包括工业互联网、包括新能源汽车,而且我认为要通过开源的方式解决,因为没有任何一家能够独占,让所有人都受惠。

而且开源的方式有个好处,正好给中国一个机会,因为现在基础软件几乎都是国外的,利用 5G 的机会,中国巨大的市场有可能诞生出新的,乃至于中国真正的基础软件。

袁进辉:大家好,我是一流科技袁进辉,我们是做深度学习框架,前几天也正好开源了。

我想对新基建做一下归类,世界上的存在形式有几种:一种是物质、一种是能量、一种是信息,新基建覆盖非常全,高铁是运东西的,是物质的;能量的是高压输电和充电桩,还有一半几乎都是和信息有关,信息涉及到世界的数字化,数据的采集,背后数据分析的大脑,以及现实世界的反馈,从这个角度来说把所有的方面都覆盖了。

黄之鹏:谢谢,对于我们公司来说,啥都做,好像啥都相关。不过既然说到开源,新基建里面的基建,这个之前也和袁老师沟通中也说过,像编译器这种,大家不是特别会接触到,这种基础设备也是非常重要的。

二 AI 里算法、算力、数据,哪个对你更重要?

(主持人)刘明:大家说得都非常好,前不久我参与发改委领导组织写作的一本书,叫《新基建-数字时代的新结构性力量》,关于新基建,你怎么样想象都不过分。因为它是一个中国引领的,全新的社会经济产业生态建设,不光是基础设施,是这样一个大的生态工程。

举个例子,中美现在最热的争端,以前是华为,今天是头条,为什么是这两个?

1G~5G是数字新基建底座,不同时代的基础设施催生不同的新业态。2G应用框架是****,只能支撑文字字符;3G开始支撑移动互联网应用app、集大成者是微信,微信的技术应用框架就是语音+图片,4G曾想冲刺视频、网速及能效都不够用。终于等到支撑视频甚至VR的5G时代来了,但底座是华为的,视频新的应用场景新业态是字节跳动在创新、而且还引领着美国人在效仿,你说人家能不急吗?!所以华为成为眼中钉,字节跳动成为肉中刺。    

所以我觉得新基建从各个领域,不光是带来基础设施、而是带来了新生态的引领,这么一个宏大的工程,怎么形容它都不过分。

我是资深的开源老兵,开源界的很多人都认识我,开源已经从最早的个人英雄、技术驱动,到企业和商业的驱动,开始进入生态驱动。三个维度都具备了,既有技术、又有商业价值、又有生态价值。除了企业,生态在中国更多是政府的主导、以及第三方组织的加入。新基建就是最大的一个生态驱动。

这事太大,但是跟开源有关,跟 AI 有关。那么下面我们就谈谈 AI。

昨天全体大会很多大咖都分享了AI最新最热话题,开场报告高文老师介绍了“鹏城云脑“和“数字视网膜“,印象深刻的是周志华老师针对当前火爆的“暴力美学”成功模型GTP-3、数据驱动的大数据+超级算法+超级算力的当前AI主流,提出另一条数据驱动+知识驱动的“反译学习”思路。而我们鹏城实验室的“云脑",真的是在打造一台“暴力机器”。AI 在今年突然到了两个分叉点,原来觉得已经差不多到天花板了,现在到了是走暴力规模化,还是反辅以人类知识智慧另辟蹊径,这是两个方向。

不管怎样,还是分三个方面,就是人工智能三要素来谈,一个是算力,一个是算法,一个是数据。

今天国内做算法或者说框架的,大都在这里。刚才演讲的 Zilliz 的顾钧,和台上涛思数据的陶建辉,都是做数据的。天健也是我们OpenI启智的理事,他在杨强老师团队里在引领联邦学习的热潮,而且贡献我们社区关键的数据环境项目“OpenI纵横”,大家都知道的GitHub是代码环境,AI开源社区建设还需要数据环境,我们非常看好联邦学习、希望打造成为AI开源社区安全可靠的数据环境。

所以我想从自己的角度,每个人讲讲,AI 里算法、算力、数据哪个重要,你在这个领域是在世界级的领头,还是在国内领头,还是什么样的想法?

这三天基本人人都在谈 GPT-3 。你怎么看在这个转折点上,算力、算法、数据,我们有什么机会?

陈天健:我们既做 AI 方面的研究,我们也做 AI 产业化的应用,在互联网金融这个行业。

我们观察来看,国内包括国外 AI 的研究界和产业界的分裂或是自相矛盾越来越严重,而不是越来越轻,产业界研究的问题学术界看不上,觉得你们这个是属于脏活、累活,没什么用。

工业界也看不上学术界搞的东西,觉得你们说的这些东西都是三十年以后才能用得上,今天有一个问题需要解决,但是解决不了,你有没有办法?仔细研究一下也没办法解决。

所以这个分裂的问题,我相信不会因为外部的变化,比如说国家对于新基建的投入,内部的变化,包括企业对商业模式的探索,而发生本质上的改变。

但是也是有机会去弥合当中的分歧,我相信就是开源。因为不管你的理论研究做成什么样、是什么样的方向,最后总得有一个交付,开源是一个比较好的交付的界面。

企业也可以通过与高校进行开源上的合作,去弥合产业界需要的 AI 技术,和学术界开发的高大上的新的 AI 技术之间的断层或是分裂,在我们看来,算力、算法都不重要,重要的是产业界和学术界要尽量减少分歧,通过一种合作平台的方式,进一步减少、逐步的减少这种分歧。

崔宝秋:刘明老师讲的两点非常对,就是算力和算法。

很有感触,最近大家都在谈 GPT-3,让人惊艳,我们称之为“暴力美学”,也代表了广义的开源,也代表了我之前讲的,大家不要过早的唱衰 AI、唱衰大数据、唱衰深度学习,以大数据和深度学习为代表的 AI 技术,或称之为 BigData 的大数据 AI,才刚开始。

去年就有人在说,深度学习遇到极限,大数据不行了。当然我们渴求新一代、下一代的 AI 技术,但是现实点讲,今天的大数据红利,深度学习和 AI 带来的技术红利才刚刚开始。

今天的GPT-3,它的惊艳,它的“暴力美学”,让世人吃惊,我们用强大的算力、强大的算法和后面的广义的开源带来的东西,我们有很多红利都没吃呢,这里面跟学术界、企业界已经慢慢区分不开了。

刚才 Daniel 接受采访被记者问,他做的 K2 这个子项目,是学术相关还是偏向产业相关?他说两者都有。

我还是借此机会讲一下,今天的 AI ,春天才刚刚开始,我觉得我们从产业上,从新基建带来的机会上,从人类科技的进步上,我觉得都是个机会。

红利还有很多,不要过早的标新立异,搞些让人吃惊的标题唱衰 AI,AI 需要大家呵护,过去的 AI 寒冬都是因为大家对 AI 有过高的预期、过热的爆炒、过度的冷落才造成了 AI 的冬天,今天我们需要呵护大数据和深度学习带来的 AI 技术,能帮我们做什么要有清醒的认识,我们可以做很多东西的,以此谋求下一代的 AI 技术,需要呵护今天的 AI 技术,开源会扮演很重要的角色。

田忠博:在我看来,人工智能三个因素实际上都非常重要,都需要在整体上有新的方法和新的突破,我对这个事情从来不悲观。

旷视建立研究院之初对深度学习充满的信任,刚才宝秋老师也说了基于 GPT-3 的模型很惊艳,我觉得并不意外,我们看到 AlphaGo 大家也是同样的震惊,研究界并不应该惊奇,我们自己就会发现,16 倍的数据集会使物体检测显著的性能提升,说明我们的算法的边界远未达到。

我们增大数据、增大算力,会发现能力进一步提升,我们现在没有看到边界或是能限制我们想象力的东西,现在我们真正面临的问题,还是在于我们是否能在基础上更进一步,把人工智能带向下一代的能力,让它更加指数型的发展,我觉得这是我们的挑战。我从来不相信深度学习或人工智能的瓶颈论。

陶建辉:(陶建辉,涛思数据创始人兼 CEO )刚才刘明讲的算法、算力和数据,我们公司涛思数据主要注重在数据上,尤其是物联网大数据。

新基建是要孵化 IT 的新基建,任何一道新的场景出来,数据存储包括操作性,都要做相应的改进,我们公司针对物联网、车联网和工业互联网的场景,做了更好的存储方法,国家新基建对我们来讲,正好是最好的春天的到来。像我们自己开源之后,获得的反响也很大,这是另外一个红利。

新基建给我们带来巨大的红利。中国还有一个巨大的红利,以前是农民工的红利,现在的红利是工程师的红利。中国的研发人员的数量已经相当庞大,二十年前我从美国第一次回国的时候,中国研发人员的素质和美国相差非常巨大,数量也是相差非常巨大。现在都是一两千万软件研发人员,软件研发人员在呼唤新的工具,这个新的工具实际上是新的基础设施,包括人工智能、机器学习新的框架,包括像我们这种新的数据存储的软件,这些都是新的机会,这是前所未有。

而且通过开源的方式还有一个好处,不仅是在中国,而且可以走向国际市场,尤其是今天中美贸易战、意识形态纷争的今天,如果你不开源,美国人更不相信你。门都没有,通过开源,我认为有可能走进欧美的市场。

袁进辉:(袁进辉,一流科技创始人)我非常同意宝秋和田忠博的说法,最近一年对 AI 特别是深度学习为代表方法的批评的声音变多了,这个从学术界大家往前看是正常的。

但是在工业界,至少是在可 Work 的方法里,深度学习代表了数据驱动的潮流,现在应该说是顶峰,还没有看到超越的方法。以前是基于规则,人需要把知识嵌入进去;后来基于统计学习的方法,深度学习出来之后,大部分场景都可以端到端了,意思就是说很多地方都是让数据教程序,就不需要人去编程序,从数据里面推导出来程序,程序再去做一些推理和应用。

深度学习本身的贡献是解决了建模的问题,我们如果做过编程工作的话会有体会,在编程的过程中,把一个现实的东西建模出来是最有挑战的,所以架构师的身价很贵,建模搞定再写程序就是工作量的问题了, 深度学习把建模的过程自动化了,这是它伟大之处。但是它也有一些局限性,学术界再往前看,是知识驱动,得到一些新的方法。这是我第一观点。

第二个观点就是,深度学习的特色是需要非常多的数据,非常大量的计算,参数量从以前的几千万到几亿、十亿,到现在 GPT-3 有 1700 亿,现在已经到了非常高的程度,高到什么程度?

我们知道人脑里神经元的连接是百万亿级,就是说 1000 亿大概还离人脑连接,还隔了三个数量级。这就会引起一个想象:假如这个数据再大,计算力再大,比如我们感到人的智能神秘的那一部分,现在觉得人工智能搞不定的这部分,是不是通过规模到达一定程度之后,就出现了涌现,就是靠规模搞定了,原来 GPT-3 没人想到,AlphaGo 的能力也想不到,规模到一定的程度就出现了。可能不是这么简单,但是留给人很多的想象力。所以我觉得在数据和计算力的纬度上,还有非常多的事情需要挖掘。

以 GPT-3 为代表的话,这里面跟开源也有关系,GPT-3 模型背后,解决大规模训练的技术,其实还没开源的。即使有些公司有 1 万的GPU,有些很多数据是训练过的,框架层次做了非常深度的优化,千亿级参数的优化,需要用到模型运行、流水并行的技术,现在开源框架还做不了,这是一个问题。

我要广告一下,OneFlow 就是为这种目的而生的,OneFlow 开源出来之后,对这种非常大规模的模型,不需要用户去定制开发,比如说安防领域,有千万级的人脸识别问题就可以做了,广告推荐系统是百亿、千亿级特征的,也不需要定制就可以做了,大家有这种需求可以尝试一下。

黄之鹏:(黄之鹏,华为计算开源生态部副总监)我说点悲观的,我从另外一个角度来说,因为我主要是偏开源运营的,我觉得是现在有一个巨大的海啸在朝我们涌来,但是我们可能还不太感觉,华为像是在远洋的巨轮,已经先感觉到了。

我们正在逐步迈向物理上隔离,虚拟意义上互联的状态,这种情况下对于开源的挑战是什么,对 AI 的挑战是什么?

回到刘明老师说的三个方面,这个物理不光是机器包括信息,包括物理上的隔离,后面更加强调各个区域自主本地化的世界,那么开源怎么做?我们之前理解的开源是世界是平的,包括修正案的保护、许可证,我们所熟知的一切东西,可能都是要改变的。

再往前推,我个人认为,做框架的话,如果你不能掌握像编译器这类的基础设施的能力,不会跟硬件做系统级优化的能力,不掌握硬件的话,以后真的什么都做不了。

现在还没有广泛到大家感觉到,阳光、空气、水会不会断掉?我们已经感觉到了。其实对于做开源,我们所遇到的困难,可能是其他公司做开源的同仁感觉不那么明显,我是站在相对比较悲观的角度。

三  在开源里你是什么状态,遇到什么问题?

(主持人)刘明:确实,现在是最好的时代,也是最坏的时代,这一年什么都感受到了。

这让我想起2011 年的时候,(工信)部里面说大数据爆了,全年的数据相当于之前一万年。数据引爆的智能、还有云的算力,AI 就不再细谈了,最后该讨论开源。

每次宝秋总来,他就像站在巨人(开源)的身上,从自由软件谈到开源软件。我也是各个时代都参与过,Linux时代当过全球第一个中文Linux版本冲浪Xteam Linux的老总,但因为冲浪当年过早在香港上市、不像现在商汤一样被政府待见,后来巨头发起的OpenStack企业级开源运动也全程参与并利用在工信部工作的资源力推过,包括Richard Stallman 最后一次到中国来,参与过接待。前段时间社区热传一张照片、文嵩和徐继哲还有我在给Stallman演讲前调试一台笔记本,他自己不带电脑,也恨苹果电脑,在场开源大牛们一水标配苹果本,我那时正好在推Ubuntu中国官方社区优麒麟,带着优麒麟电脑,是为东北亚开源论坛出行日韩而特意买的一台联想超极本,他觉得这台可以用,呵呵目前这台电脑和Richard的PPT还一直跟随我放在办公室。

开源是贴近人类文明的开发方式,也是人类进步唯一的、最先进的一种方式。我们这种方式原来以为它很理想,现在发现开源也不理想,也有宝秋总前面演讲中说的坑和这么大的挑战。在座既有陶总这样的开源网红,也有开源最佳实践的巨头。本来我还通过Linux基金会想邀请Zilliz 创始老板星爵来一起聊、他有个观点是国产开源需要更多利他主义,他刚当选当选 LF AI (Linux Foundation AI 基金会)新一届董事会主席。我还邀请过清华伯克利的谭章熹教授、深圳首个诺奖/图灵奖实验室RISC-V国际开源实验室负责人,去年在鹏城实验室与章熹的导师David Patterson一起聊过开源硬件肯定有与软件不同之处,后来RISC-V基金会CEO Calista Redmond来访时我们又进一步探讨过。圆桌就应该从每个人不同的角度,讨论开源应该怎么做。

悲壮的之鹏让我们加速进入了终极话题。大家都是开源的老兵,你对自己、对开源的认识,你现在在开源里是怎么状态,遇到什么问题?

陈天健:(天健的开源加速主义哲学解释很棒,说到点子上,理解很深)。

大家聊开源之前的话,其实可以想一个事,叫做“加速主义”。两个人打架,一个强一个弱,强的人说,弱的人通常在成长,所以我得提早和你干一架,他愿意早打。弱的人因为信息不对称,他腰里藏着 40 米长刀,就等着强的人早打。于是在市场上大家都达成一致,我们要早打。

怎么个打法?在软件的整个供应链上就是开源,一开始在进入开源商业模式之前没有想到这么“有毒”,开了以后发现越来越“有毒”,整个供应链完全开源了,一旦开源再也不能走闭源的回头路了,用的每个部件,供应链上 99% 的部件都来自于开源社区,所以开源是非常“有毒”的一种商业模式,它加速了一切。

你原来要进入细分市场的话,可能要花三年的时间吹牛,三年的时间做现场测试,再花三年的时间看市场的反映,来来回回十年就过去了。

一旦进入开源的软件供应链或是生态的玩法,软件行不行,第一天就有人拿出来评测,一两年你的社区、生态还没发展起来,这个项目基本上就要凉了,所以开源从哲学角度来说,是加速主义的产物。

既然加速的话,我们汇报一下我们加速的成果。2019 年初的时候,我们开源了联邦学习的框架Fate;2019 年年中的时候,加入了 Linux 基金会;现在经过一年多时间的发展,使用 Fate 的厂商已经扩展到十几家,这是我们知道的,未知的还不算。

它创造了一个新的细分市场,就是基于联邦学习的大数据价值交易的市场,基本上复兴了大数据。你在互联网上找的任意一个关于隐私计算的帖子,当中一半以上的厂商,它的内核都是基于 Fate 或者是 Fate 的一种变体。

你会发现,开源的模式对于加速生态的构建、加速试错、加速商业生态的形成、加速软件供应链的重构,是有非常大的帮助的,它加速了一切。

反过来,对于所有的开源从业者提出了挑战,这个坑是你挖的,加速也是你推动的,反过来,你在这个加速的过程中,是不是能跟上节奏,不断的调整商业模式的设计,构建更大的基于开源软件的生态联盟,这是给每一个开源的商业化从业者的挑战。

崔宝秋:今天我讲到“开源新时代”,确实我们面临一些挑战。我可能比较乐观,最终会过去的,过去一两年我关注的是巨头后面的寡头垄断,开源界的寡头垄断。就是控制权,不够那么开放、不够那么中立、不够那么平等,不够那么全球化。今天的形势把这个给扩大化了,给加剧了,但是我觉得长远来看是会过去。

我可能是一个乐天派、乐观主义者,我相信开源是人类科技进步的最佳模式和平台,包括数据、人类的知识是属于全人类的,用某种形式传承下去,把这个全人类的巨人一直呵护下去,这个我觉得是有可能的。

当然最近一些比较敏感的话题让我们看到一些黑暗的一面,比如说华为同事看到的一些东西,我们也看到了,行业中可以看到一些不好的事情。原来说开源,应该是没有国界的东西,现在慢慢有国界了。

因为开源许可,不管是 GPL,还是 Apache 也好,谁来解读它?很多是来自于美国,谁来执行它?所有的法律法规,解释权在哪里、执行机构在哪里?开源本来是全人类的事情,变得有国界了,挺让人觉得这是可悲的地方。

所以我特别希望咱们中国要做一些自己的事情,开源的一些东西,我觉得应该推动一下,更加开放、更加中立、更加平等、更加全球化的一些许可和法规,真正让开源变成全人类的事情,而不是一两个国家的事情,或者不同意识形态的事情,就像食谱一样,大家都可以做,有些算法大家都会知道,这是属于全人类的。

我觉得一些黑暗的东西,今天看的一些倒行的事情,我认为是暂时的,慢慢会过去,希望中国在未来的世界格局中,会扮演越来越重要的角色,中国可以推动一个更加极致的开源,为下一代的文明,咱们可以推动一些事情,我是乐观的。

田忠博:感觉这个话题比较复杂,对于开源来说大家理解不太一样,有些人觉得是挑战,有些人觉得是机遇,有些人觉得是责任,有些人认为可能是商业,包括旷视做开源,很多人有一些猜测和想法,我现在没办法代表公司发言,我只能代表我自己,我自己是怎么看这个事情,包括我的团队。

其实开源是非常自然的事情,我经常和团队说,代码是工程师的自然语言,在最低的限制上,开源是工程师、研究员相互交流想法的一种方法;在最低的限度上,任何的一种代码都应该被分享出来,希望用这种方式连接更多的智慧、更多的想法,我们可以看到深度学习、看到人脑,本质上是连接的智慧,希望通过这样的方式能够促进。

所以我会觉得对于开源,不希望它复杂,希望它能回到本质的属性,是一种交流、一种拓展。大家可能认为旷视刚做开源,其实我们一直都是通过论文或者是其他方式,把我们最新的研究成果开源开放出来,确实天元是旷视第一个大型的开源项目,还有非常多的困难,非常多的问题需要克服,但我觉得终将走向一个让大家变得更好的趋势,这也是我们做这件事的本心和初心。

陶建辉:我分享两个方面。一个方面是特别好的方面,我自己感觉开源对我公司带来巨大的价值,市场、品牌一下子就起来了,我们本来前面做两年也卖了将近十个客户,也没什么人知道我们,开源以后,中国的开发者真的是没有不知道我们的,现在也有美国、德国、意大利、西班牙的用户。

我们去年 7 月份宣布开源之后,我们有 5 天时间是在 GitHub 趋势榜排名第一,我们就在这周一,8 月 3 日,我们把核心的集群功能开源,宣布之后,今天是第 4 天,已经连续 4 天排名第一,大家可以搜一下叫 TDengine,里面有我自己写的 4 万多行代码。这是好的一面,很鼓舞人心,觉得自己写的代码有价值,我们毕竟是写程序的,要有人看、有人喜欢这个程序才有价值。

另一方面,在中国做开源是个极其难的事情,为什么?软件几乎没人买,软件很难很难,Oracle 在中国的销售额只占全球的 4% 不到,在中国做开源谁买单?任何一个好的软件要生存下去,必须有商业和钱驱动,谁来掏这个钱?像Linux的个人英雄时代已经不在了,一定要背后有集团和商业利益在驱动。这个东西偏偏在中国不具备这样的土壤,因为大家不愿意为服务、为软件买单,开源在中国站起来还有很长的路。

我们公司选择做开源真的是相当相当难,我自己和别人有点不一样,我是海归背景,我从成立的第一天起,就认准中国赚不到钱,开源,我是拼命想做欧美市场,偏偏现在又有意识形态之争,让我们的未来充满着变数。

如果你们想用开源在中国做生意,是真赚不到,而欧美市场,像意识形态的原因,真的是充满太多的变数。

袁进辉:我们也是做开源的,也是创业公司,陶总说完让我心里拔凉拔凉的。

我们经常说开源的正面,我说一个是比较少想到的,开源有一个负面的作用,它可能是扼杀创新的。就是开源的东西出来之后形成一种生态,我们可以想象它像一个黑洞一样,很多的应用、算法、开发者都是围绕着它的,有什么新的东西出来,都被这个已经成为“标准”的东西吸进去了,如果有个团队,有个新的想法的时侯,会被吓倒,大部分人一看开源这个东西太庞大了,工程上也非常庞大,生态上也非常难以逆转,有时新的想法不是那么容易尝试。

比如我们做深度学习框架,三四年以来被频繁的问这个问题。就是 Google 做了、Facebook 做了,微软、亚马逊,国内的华为、百度都做了,你一个小小的公司,你凭什么做这个事情,你怎么出来等等一系列的问题。

所以说这个开源的东西形成了一种生态之后,有一些主流的玩家以后,新的想法不太容易出来。而且很多算法我们可以调用,现在有一种叫调包侠,它(框架)做得已经非常容易了之后,形成一种懒惰,底层的东西我不去了解。

有的时候做复杂的创新,比如说早期的 AlphaGo,这个创新背后都是带着复杂的系统工程,即使有的团队想过这种想法,没有系统工程的能力支持,也没法做。有的时候造成一种懒惰之后,就会阻碍创新,特别是国内,我们不要满足于成为调用别人 API 的人。

第二个我想说的,开源提供了非常大的机会。我做一个类比,以前一个演艺人员要成为明星,只有走中央电视台、上电影;但现在像李佳琦、李子柒等,只要他有才华,他通过自媒体、社交网络,是有非常快速出来的通道,开源就是这样的市场。

我们知道很多知名的机器学习领域用得多的软件,不是大的商业公司干的,是个人英雄主义干的,陈天奇、贾扬清早期的项目是个人做出来,大家觉得好用以后在社区里就像指数传播、网络效应,飞快就起来了,这是非常好的机会,英雄不问出身,不一定是大公司可以干的,能力很强的人、很强的团队、创业公司,我认为也有机会。

第三个我想说一下,像宝秋说的一样,我也是乐观的,我也觉得国内的人现在面临政治的冲突,但是不要因为这个因素变得封闭,而要更加开放,要有全球的视野、全球的胸怀。

非常好的开源软件,像美好的文艺作品、电影一样,就是人类优秀的文化、文明的成果,我们应该实事求是的承认,国内以前在这方面,是比较少有非常优秀的贡献者。我认为这个时代到了,从应用的牵引,很多互联网公司和 AI 公司应用层次完全不输于国外,人才积累也到这个程度了,我们国内的开发者应该有这种志向,创造出非常优秀的开源项目和作品。

黄之鹏:感觉我是抢先打开了一个潘多拉盒子。我也说点乐观的,刚才说了很多我觉得会产生的挑战,背后意味着什么?其实对中国做开源的人是件好事,意味着无论是国家、企业还是社会,开源或是专业复合型的开源人才越来越重要,大家原来认为开源是文化上、精神上的,只有经过转变,很多公司才会意识到开源是非常复杂、综合性的事情。

我大概说一下我个人对后面发展的理解。

像刚才我演讲中讲的,MindSpore 整个社区的章程是我一手写的,它的社区治理、开放性我敢说放在国内是非常领先的。我们让渡了很多东西放在社区里面。其实我们可以完全像谷歌一样,为啥我们华为出人出力,还搞一个技术委员会在上面管着我们?这是因为我非常坚信整个开源开放,包括治理这一套东西的有效性,不是什么东西能够推翻的。

当时未来可能会改变的东西是什么?一个是我们未来会越来越面临物理上隔离、虚拟上连接的一个社会,所以来说,未来我们经常会做的一个,就是大量的本地化的事情,现在大家觉得写个英文文档基本上已经打遍天下了,未来可能不够用。而且大家想一下,因为疫情,我们有一个巨大的人才红利,很多留学的人都回来了,中法、中德、中日、中韩很多的双语人才之前在国外工作,这些人才只要我有预算,都希望用起来。其实在国内通过互联网可以做很多这种国际化加本地化的拓展,这会有一个新的变化。

我觉得去年刘老师在力推OpenI启智社区时做得特别好的一件事,也是挺大的一件事就是经常请北****学院张平老师等开源知识产权专家来做讲座,让大家明白开源首先是法律、知识产权、许可证、还要合规治理,这些跟GitHub等代码托管平台一样都是开源社区重要的基础设施,但往往大家普遍缺乏这方面的意识,只关注代码和技术。所以以后开源的人才一定是综合性的人才,他要懂开源社区的法律,专利,开源开发,开源治理,传播这一系列的事情,以后才能把开源做起来。

今天论坛本身就是非常巨大的进步,放五年前,刘老师只能请一批西方面孔,我觉得今天这个圆桌环节本身已经是一个巨大的成功,像袁老师说的,其实在大的尺度上,我也是很乐观的,我对开源从来没有动摇过,我开发所有的知识,都是从开源来的,我觉得它一定会走下去的。

四  听众提问:开源怎么赚钱?

(主持人)刘明:感谢之鹏,危机更多的是”机”,物理世界隔离了,带来虚拟世界的爆发。这是去年从贸易战、科技战到全球大战疫带来的一个趋势,也是全人类的一个机会。

台下听众们有没有要提的问题。

提问(平安科技):我请教两个问题,第一是我们现在开源的话,有没有安全问题?第二是我们做开源产品、做社区,有没有商业价值?在哪里?

陈天健:我们做的开源项目比较特殊,我们做的是和数据安全合作相关的项目,安全问题说到底,开源没有与之比的商业模式,因为谁去认证黑盒?没有后门这样的东西,因此只有开源这样的模式。所以我们对于开源的选择可以说是一种必然的选择。

我们的软件建成了一种各方进行大数据合作建模的一个事实标准。类似于大数据的 HTTPS,这样的话,我们在上面可以进行多方位的,比如说金融业务的变现,构建一个大数据的合作本身就是金融网络的基础,所以我们相对于出售 License 这种模式,我们相对来说还不太受到商业方面的困扰。所以我们才会去投入这种基础设施,通过开源去推动各种标准的构建。

陶建辉:我可以分享一下开源怎么赚钱,我正在写一篇博客,讲我们的开源策略是什么。我是红杉、GGV、明势资本投的公司,我们已经拉了 2000 多万美元,那是一定要赚钱的,我开源不是只为人民服务的,否则没人敢投我。

那怎么赚钱呢?我们采取的模式在美国叫 Open Core 。就是核心代码完全开源,那哪些不开源呢?我们公司的产品不是百分之百开源,大概还有百分之几的代码不开源,辅助性的功能不开源,刚性需求、必须用的全部开源。比如说,像类似于数据库的插入、查询、集群都开源,但是我的异地容灾不开源,一键登录不开源,数据加密不开源。

因为异地容灾,我绝对不会开源,因为像中小企业异地容灾无所谓、数据加密无所谓,没有的话照样跑,像 mongoDB、Spark、Kafka 都是这种做法,现在是美国相当成功的商业模式,叫 Open Core,就是辅助功能不开源。

我陶建辉为什么要做物联网大数据平台,做得挺好还要开源,为什么?我希望全世界边缘计算、物联网平台,里面的数据处理几乎都用陶建辉开发的,不说 70%、80% 的市场份额,超过 30%的市场份额被我占了就是垄断了,一旦你垄断的时候,你就跟微信一样,插个扁担都能开花。

那可以做很多事情,可以做云服务,包括我们选择的 License 是 AGPL,它最大的限制是不希望云厂商用,我开源我可不希望阿里和亚马逊拿来赚钱,正常的公司都可以用。这是我们的赚钱之道。如果我们开源不能赚钱,做不了伟大的作品,我更不可能花钱雇好的人才,微软出来的都是200、300 万,我怎么请得起?公司必须赚钱,才可能做出伟大的产品,才能持久的发展。

刘明:陶老师自己写代码、写文档、写博客、写微信,他一个人都能干还干得好,这就是为什么他能成功?

陶建辉:因为是创业公司,雇不起。(众笑)

五  总结 AI 开源之道

(主持人)刘明:时间已经到了,大家每个人总结一下。

我先总结一下,我们今天有做创业的,像陶总、袁总,刚才一堆人都围着,他们首先是技术明星,做得很Happy。而在座的大企业,越大的企业,挑战就越多,担的责任就越多,苦恼也就越多。但这里面最苦的其实是我,大家不知道,为了开源我进了“佛门”,我还是武当的正式弟子,我就是寻求道。记得之鹏有个同事,是鸿蒙的CORE,曾要我带他去趟寺庙,说做开源太苦了。

最后请大家总结一下,AI、开源你们每个人怎么看,你希望中国在这方面提供什么样的基础设施?中国围绕 AI 开源提供什么样的环境?

这个问题也是我很感兴趣,是我现在努力在做的事情。

陈天健:AI 作为软件供应链当中的一环,现在比较火,但是开源仍然是它的最好商业模式,原因就是它可以有效的降低 AI 的构建成本。我们在整个 AI 的开源环境中,提供的主要就是怎么样去联合各方的数据,同时保护各方的数据上的利益,这一个对于权责利的调整,可能更有助于整个 AI 供应链在数据这一环节的形成。

崔宝秋:我特别想强调,我觉得 AI 开源,或者整体开源会激发创新,开放和开源迟早会激发创新。袁老师讲的会打压创新,就是我讲的那种寡头垄断。

开源也是一个希望,希望咱们国家能保护这些自己开源、基于开源模式的公司,让这些公司赚到钱,我相信是有各种模式的。中国和欧美国家是一样的,中国可以赚到钱的,我坚信这一点。

我希望政府可以在开源上,立一个更加先进的,下一代的法规、许可证,能不能让它更加极致、开放、透明、全球化,这是我特别希望的。我们在开源上需要综合性人才、法律法规的制定,这些先进性是咱们中国必须要占据的。

田忠博:旷视其实是享受了在技术上开源、开放的整体红利,所以我们也是在积极的参与开源浪潮,从我来想,我希望有朝一日通过我们自己的努力,能把大家认为中国人做不好开源软件,我们能做到最好。

陶建辉:我觉得要把开源做好,最重要的是中国要把尊重知识产权真正做好。我就说一句话。

袁进辉:如果用一两句话说的话,我们希望做出世界领先的、创新的技术,引领潮流的项目。

就像刚才宝秋总说的“不重复造轮子”如果别人做的很好了,那的确没必要重新造一套,而且还不如人家,我们又必须说为了安全的因素,必须要用一样,这个我是不太赞同的,我赞同的是造出来比别人好,不光是自己用而且全世界用,这是我追求的东西。

黄之鹏:AI 开源对于我来说,主要是希望国家能有更多的自研的硬件,自己的算力,开源开放的数据集,这个特别重要,而且重要性会越来越大。

然后作为对开源文化普及的一部分,就想说一下刚才陶总的那个,我是不太认可 Open Core 模式的,还有其他的赚钱的方式,大家可以自己去网上搜一下,这个是很好的一个,其实北美现在也有这种激烈的讨论。

刘明:时间的原因意犹未尽,我们还有晚宴,私下再进行交流,圆桌讨论就到此结束,我的感觉是非常大的机会、当然也是非常大的挑战,尤其从事 AI、开源两个领域,我们从文化上,我们不太善于协作,开源的核心就是大规模的协作,像 Linux 系统,几百万甚至更多的程序员一起写一个项目,我们怎么避免单打独斗,这是我们开源的一个核心,这是我为什么要去学佛学道,10多年坚持禅修和太极,佛为心道为骨,这个是文化,找到这个根上去。

现在 AI 不光是代码开源,包括算力、数据,都需要逐步开源进化和优化。最近的 GPT-3 带来很大的启示,再次打破常识,甚至被认为是超越 AlphaGo 的技术突破,让人类真切看到了通用语言智能的希望。年初贾杨清在一次报告中给出一个数据,现实的算力需求现在是每 3.5 个月增长一倍,所以算力时代真的来临。除了算力,还有算法,我们通过优化算法、优化软件框架也能进化。GPT-3发布前、OpenAI提出超摩尔定律,AI算法效率每16个月翻一番。微软+英伟达的超级算力,OpenAI的超级模型和算法,这样一个顶级科研与超强工程的大兵团通力协作,带来了“暴力美学”,就这样一个结果出来。所以看来 AI 并不是在衰落,而是非常大的一个机会。

开源通过我们的文化,这样一个物理隔离、虚拟世界的建设,新基建的机会,可能产生一个新的,超越的可能性。我非常坚信,虽然很痛苦也很困难,AI和开源是我们最大的一个机会。

谢谢大家!

*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。



关键词:

相关推荐

技术专区

关闭