"); //-->
AI研习社按:2020 年 8 月 7 日 - 9 日,全球人工智能与机器人峰会(CCF-GAIR 2020)正式开幕。峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。从 2016 年的学产结合,2017 年的产业落地,2018 年的垂直细分,2019 年的人工智能 40 周年,峰会一直致力于打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资平台。
CCF-GAIR 2020 第二天,峰会与 AI 研习社、OpenI 启智社区联合举办“AI 源创专场”,重点讨论了新基建背景下,国内开源创新建设将催生的新势能,以及将引发和促进的新产业机会。
AI 源创专场的策划,酝酿一年之久,形成半年之前。2020 年 1 月 8 日,采访洪强宁的那个下午,洪强宁说了一句让人印象深刻的话,“全世界的程序员是一个共同体”。使这个共同体成为可能的,就是开源。具体报道可参见《“教授”洪强宁和他穿越的技术江湖》。
在此之前,崔宝秋也两次谈及多年追随开源的心路历程,作为雷军同寝室的同学,崔宝秋毕业之后先去了中科院计算所读博士,1995 年去纽约州立大学石溪分校继续深造。他开始接触自由软件和开源软件,博士论文涉及的代码也全部开源。无论后来在 IBM、雅虎、 Linkedin,直到在小米,崔宝秋都是坚定的开源信徒,从未有过动摇。开源也是崔宝秋和 Daniel Povey 惺惺相惜的重要原因。具体报道可参见《小米崔宝秋:开源是软件的未来》。
现任 OpenI 启智平台秘书长和鹏城实验室 AI 开源平台办公室主任的刘明,20 年前就和开源结下了不解之缘。作为一个开源老兵,他曾任全球首个中文 Linux 版本、香港上市企业冲浪 Linux 总经理,还曾担任过永中 Office 总经理,在基础软件领域声名显赫。从民间到庙堂,从西方到东方,刘明的故事正是 20 年中国开源故事的缩影。喜欢八卦的同学,可以阅读左林右狸的知识星球《开源老兵的中国往事》。阅读访问:https://t.zsxq.com/vz3zJeM。
而AI 源创专场的联合主办方,都和开源有着极深的渊源。AI 研习社发轫于早期的雷锋字幕组,那是一群热爱分享的,由985、211高校为主体的AI 爱好者组成的字幕翻译Team,专注于AI领域的海外内容翻译。大家发扬着雷锋精神,通过开源方式组织在一起,高效率的完成翻译任务,再开源分享到社区。如今,它已发展成为拥有20万用户的985、211学生为主体的AI学术青年和开发者的社区。始于开源,成于AI。
OpenI 启智平台更是肩负“新一代人工智能开源开放平台”的使命与梦想,英文名称Open Intelligence,简称OpenI。本次圆桌论坛嘉宾,邀请了陈天健,OpenI理事会理事,微众****AI Group副总经理、专家工程师,联邦学习技术总负责人;邀请了黄之鹏,OpenI技术委员会委员,华为计算开源生态部副总监;邀请了田忠博,OpenI新晋核心成员旷视科技的最新AI开源框架天元的技术负责人。圆桌论坛主持人,正是刘明,OpenI秘书处秘书长。
技术英雄、龙头企业、官方机构,角色不同,济济一堂。本次AI源创圆桌论坛有崔宝秋这样的开源信徒,有旷视田忠博这样的开源新锐,也有走到哪里都有一群程序员粉丝的开源网红,涛思数据创始人陶建辉和一流科技创始人袁进辉。大家各抒己见,碰撞不断,激发听众对开源的深度思考和“强化学习”,这或许就是开源本来的样子,星光闪耀,和而不同。
AI 研习社将圆桌论坛进行了不改变原意的编辑,以下为全文:
一 新基建 7 个内容,哪个跟你最密切?
(主持人)刘明:
今天我们紧扣主题:一是新基建,二是 AI。
AI 发展太快了,去年年底我也是主持,当时在场的天健和宝秋都是老朋友,在启智开发者大会讨论了:第一是 AI 的边界是什么、第二是开源的能量是什么。
现在 AI 的发展真的很快,2016 年讨论的是深度学习技术,第二年讨论数据,去年开始讨论伦理,我们当时定的主题是边界。
今天的主题是三个方面的讨论:一是新基建;二是 AI,而且应该讨论当前最热话题“超级 AI ”;三是开源。
时间比较紧,大家自我介绍就免了,大家都认识了。
我们先讨论新基建,新基建啥意思很多都已知道,我原来所在的单位工信部、还有发改委做了七大领域的规划,什么是新基建?5G、特高压和电力互联网、高铁和轨道交通、新能源汽车充电桩、数据中心和云计算、AI、工业互联网。
我原来在产业界,最早做过中文 Linux 的版本,叫冲浪 Linux,后来在永中 Office,在基础软件领域做了很多事。后来在工信部搞产业研究和促进。
请嘉宾根据自己的理解说一下,七个新基建当中排排序,就讲讲一两个,觉得和你所在的单位,哪个和你最密切?
陈天健:谢谢刘明老师,我是微众****的陈天健。国家进行新一代网络的建设,也会影响未来工业互联网的面貌。新基建一方面是机会,一方面是挑战。
如果基础设施好了、数据多了、算力也强了,但是应用数据的能力,也就是 AI 这块没有很好跟上的话,也大不起来,对从业人员既是机遇也是挑战。
崔宝秋:新基建跟开源都是相关的,像今天咱们的AI源创里面有AI,后面的大数据、5G、工业互联网、新能源充电桩、特高压,我认为都跟开源有关系,比较简单的就是AI的开源、大数据的开源,6G其实跟开源也有关系,这些是今天可以看得到的。
就像今天我演讲中讲的,开源是个模式、开源是个平台、开源是个方法,包括开源硬件,在新基建中都会扮演特别重要的角色。
田忠博:新基建是个整体,几个技术都非常重要。如果让我挑的话,我可能会挑工业互联网,这是人工智能技术发挥非常很大作用的广阔天地,跟中国现在的升级和转型能够非常好的结合在一起。
对于旷视来说,新基建是一个从一到万的新的征程,我们要做好一,在传统工业和新技术加持的工业互联网上打造新的增长点,像我们在机器人和物流方面一直在深耕,希望可以在新的政策和机遇下,可以有新的发展。
陶建辉:我是涛思数据创始人陶建辉。新基建对我们公司来讲,意义特别重大,七个方向,无论是高铁、轨道交通、电力,还是新能源、工业互联网、云计算、数据中心,都和我们公司做的东西密切相关。
因为我们是做数据采集的处理,我相信世界上经过 90% 的数据都是机器采集的数据,包括电网、包括工业互联网、包括新能源汽车,而且我认为要通过开源的方式解决,因为没有任何一家能够独占,让所有人都受惠。
而且开源的方式有个好处,正好给中国一个机会,因为现在基础软件几乎都是国外的,利用 5G 的机会,中国巨大的市场有可能诞生出新的,乃至于中国真正的基础软件。
袁进辉:大家好,我是一流科技袁进辉,我们是做深度学习框架,前几天也正好开源了。
我想对新基建做一下归类,世界上的存在形式有几种:一种是物质、一种是能量、一种是信息,新基建覆盖非常全,高铁是运东西的,是物质的;能量的是高压输电和充电桩,还有一半几乎都是和信息有关,信息涉及到世界的数字化,数据的采集,背后数据分析的大脑,以及现实世界的反馈,从这个角度来说把所有的方面都覆盖了。
黄之鹏:谢谢,对于我们公司来说,啥都做,好像啥都相关。不过既然说到开源,新基建里面的基建,这个之前也和袁老师沟通中也说过,像编译器这种,大家不是特别会接触到,这种基础设备也是非常重要的。
二 AI 里算法、算力、数据,哪个对你更重要?
(主持人)刘明:大家说得都非常好,前不久我参与发改委领导组织写作的一本书,叫《新基建-数字时代的新结构性力量》,关于新基建,你怎么样想象都不过分。因为它是一个中国引领的,全新的社会经济产业生态建设,不光是基础设施,是这样一个大的生态工程。
举个例子,中美现在最热的争端,以前是华为,今天是头条,为什么是这两个?
1G~5G是数字新基建底座,不同时代的基础设施催生不同的新业态。2G应用框架是****,只能支撑文字字符;3G开始支撑移动互联网应用app、集大成者是微信,微信的技术应用框架就是语音+图片,4G曾想冲刺视频、网速及能效都不够用。终于等到支撑视频甚至VR的5G时代来了,但底座是华为的,视频新的应用场景新业态是字节跳动在创新、而且还引领着美国人在效仿,你说人家能不急吗?!所以华为成为眼中钉,字节跳动成为肉中刺。
所以我觉得新基建从各个领域,不光是带来基础设施、而是带来了新生态的引领,这么一个宏大的工程,怎么形容它都不过分。
我是资深的开源老兵,开源界的很多人都认识我,开源已经从最早的个人英雄、技术驱动,到企业和商业的驱动,开始进入生态驱动。三个维度都具备了,既有技术、又有商业价值、又有生态价值。除了企业,生态在中国更多是政府的主导、以及第三方组织的加入。新基建就是最大的一个生态驱动。
这事太大,但是跟开源有关,跟 AI 有关。那么下面我们就谈谈 AI。
昨天全体大会很多大咖都分享了AI最新最热话题,开场报告高文老师介绍了“鹏城云脑“和“数字视网膜“,印象深刻的是周志华老师针对当前火爆的“暴力美学”成功模型GTP-3、数据驱动的大数据+超级算法+超级算力的当前AI主流,提出另一条数据驱动+知识驱动的“反译学习”思路。而我们鹏城实验室的“云脑",真的是在打造一台“暴力机器”。AI 在今年突然到了两个分叉点,原来觉得已经差不多到天花板了,现在到了是走暴力规模化,还是反辅以人类知识智慧另辟蹊径,这是两个方向。
不管怎样,还是分三个方面,就是人工智能三要素来谈,一个是算力,一个是算法,一个是数据。
今天国内做算法或者说框架的,大都在这里。刚才演讲的 Zilliz 的顾钧,和台上涛思数据的陶建辉,都是做数据的。天健也是我们OpenI启智的理事,他在杨强老师团队里在引领联邦学习的热潮,而且贡献我们社区关键的数据环境项目“OpenI纵横”,大家都知道的GitHub是代码环境,AI开源社区建设还需要数据环境,我们非常看好联邦学习、希望打造成为AI开源社区安全可靠的数据环境。
所以我想从自己的角度,每个人讲讲,AI 里算法、算力、数据哪个重要,你在这个领域是在世界级的领头,还是在国内领头,还是什么样的想法?
这三天基本人人都在谈 GPT-3 。你怎么看在这个转折点上,算力、算法、数据,我们有什么机会?
陈天健:我们既做 AI 方面的研究,我们也做 AI 产业化的应用,在互联网金融这个行业。
我们观察来看,国内包括国外 AI 的研究界和产业界的分裂或是自相矛盾越来越严重,而不是越来越轻,产业界研究的问题学术界看不上,觉得你们这个是属于脏活、累活,没什么用。
工业界也看不上学术界搞的东西,觉得你们说的这些东西都是三十年以后才能用得上,今天有一个问题需要解决,但是解决不了,你有没有办法?仔细研究一下也没办法解决。
所以这个分裂的问题,我相信不会因为外部的变化,比如说国家对于新基建的投入,内部的变化,包括企业对商业模式的探索,而发生本质上的改变。
但是也是有机会去弥合当中的分歧,我相信就是开源。因为不管你的理论研究做成什么样、是什么样的方向,最后总得有一个交付,开源是一个比较好的交付的界面。
企业也可以通过与高校进行开源上的合作,去弥合产业界需要的 AI 技术,和学术界开发的高大上的新的 AI 技术之间的断层或是分裂,在我们看来,算力、算法都不重要,重要的是产业界和学术界要尽量减少分歧,通过一种合作平台的方式,进一步减少、逐步的减少这种分歧。
崔宝秋:刘明老师讲的两点非常对,就是算力和算法。
很有感触,最近大家都在谈 GPT-3,让人惊艳,我们称之为“暴力美学”,也代表了广义的开源,也代表了我之前讲的,大家不要过早的唱衰 AI、唱衰大数据、唱衰深度学习,以大数据和深度学习为代表的 AI 技术,或称之为 BigData 的大数据 AI,才刚开始。
去年就有人在说,深度学习遇到极限,大数据不行了。当然我们渴求新一代、下一代的 AI 技术,但是现实点讲,今天的大数据红利,深度学习和 AI 带来的技术红利才刚刚开始。
今天的GPT-3,它的惊艳,它的“暴力美学”,让世人吃惊,我们用强大的算力、强大的算法和后面的广义的开源带来的东西,我们有很多红利都没吃呢,这里面跟学术界、企业界已经慢慢区分不开了。
刚才 Daniel 接受采访被记者问,他做的 K2 这个子项目,是学术相关还是偏向产业相关?他说两者都有。
我还是借此机会讲一下,今天的 AI ,春天才刚刚开始,我觉得我们从产业上,从新基建带来的机会上,从人类科技的进步上,我觉得都是个机会。
红利还有很多,不要过早的标新立异,搞些让人吃惊的标题唱衰 AI,AI 需要大家呵护,过去的 AI 寒冬都是因为大家对 AI 有过高的预期、过热的爆炒、过度的冷落才造成了 AI 的冬天,今天我们需要呵护大数据和深度学习带来的 AI 技术,能帮我们做什么要有清醒的认识,我们可以做很多东西的,以此谋求下一代的 AI 技术,需要呵护今天的 AI 技术,开源会扮演很重要的角色。
田忠博:在我看来,人工智能三个因素实际上都非常重要,都需要在整体上有新的方法和新的突破,我对这个事情从来不悲观。
旷视建立研究院之初对深度学习充满的信任,刚才宝秋老师也说了基于 GPT-3 的模型很惊艳,我觉得并不意外,我们看到 AlphaGo 大家也是同样的震惊,研究界并不应该惊奇,我们自己就会发现,16 倍的数据集会使物体检测显著的性能提升,说明我们的算法的边界远未达到。
我们增大数据、增大算力,会发现能力进一步提升,我们现在没有看到边界或是能限制我们想象力的东西,现在我们真正面临的问题,还是在于我们是否能在基础上更进一步,把人工智能带向下一代的能力,让它更加指数型的发展,我觉得这是我们的挑战。我从来不相信深度学习或人工智能的瓶颈论。
陶建辉:(陶建辉,涛思数据创始人兼 CEO )刚才刘明讲的算法、算力和数据,我们公司涛思数据主要注重在数据上,尤其是物联网大数据。
新基建是要孵化 IT 的新基建,任何一道新的场景出来,数据存储包括操作性,都要做相应的改进,我们公司针对物联网、车联网和工业互联网的场景,做了更好的存储方法,国家新基建对我们来讲,正好是最好的春天的到来。像我们自己开源之后,获得的反响也很大,这是另外一个红利。
新基建给我们带来巨大的红利。中国还有一个巨大的红利,以前是农民工的红利,现在的红利是工程师的红利。中国的研发人员的数量已经相当庞大,二十年前我从美国第一次回国的时候,中国研发人员的素质和美国相差非常巨大,数量也是相差非常巨大。现在都是一两千万软件研发人员,软件研发人员在呼唤新的工具,这个新的工具实际上是新的基础设施,包括人工智能、机器学习新的框架,包括像我们这种新的数据存储的软件,这些都是新的机会,这是前所未有。
而且通过开源的方式还有一个好处,不仅是在中国,而且可以走向国际市场,尤其是今天中美贸易战、意识形态纷争的今天,如果你不开源,美国人更不相信你。门都没有,通过开源,我认为有可能走进欧美的市场。
袁进辉:(袁进辉,一流科技创始人)我非常同意宝秋和田忠博的说法,最近一年对 AI 特别是深度学习为代表方法的批评的声音变多了,这个从学术界大家往前看是正常的。
但是在工业界,至少是在可 Work 的方法里,深度学习代表了数据驱动的潮流,现在应该说是顶峰,还没有看到超越的方法。以前是基于规则,人需要把知识嵌入进去;后来基于统计学习的方法,深度学习出来之后,大部分场景都可以端到端了,意思就是说很多地方都是让数据教程序,就不需要人去编程序,从数据里面推导出来程序,程序再去做一些推理和应用。
深度学习本身的贡献是解决了建模的问题,我们如果做过编程工作的话会有体会,在编程的过程中,把一个现实的东西建模出来是最有挑战的,所以架构师的身价很贵,建模搞定再写程序就是工作量的问题了, 深度学习把建模的过程自动化了,这是它伟大之处。但是它也有一些局限性,学术界再往前看,是知识驱动,得到一些新的方法。这是我第一观点。
第二个观点就是,深度学习的特色是需要非常多的数据,非常大量的计算,参数量从以前的几千万到几亿、十亿,到现在 GPT-3 有 1700 亿,现在已经到了非常高的程度,高到什么程度?
我们知道人脑里神经元的连接是百万亿级,就是说 1000 亿大概还离人脑连接,还隔了三个数量级。这就会引起一个想象:假如这个数据再大,计算力再大,比如我们感到人的智能神秘的那一部分,现在觉得人工智能搞不定的这部分,是不是通过规模到达一定程度之后,就出现了涌现,就是靠规模搞定了,原来 GPT-3 没人想到,AlphaGo 的能力也想不到,规模到一定的程度就出现了。可能不是这么简单,但是留给人很多的想象力。所以我觉得在数据和计算力的纬度上,还有非常多的事情需要挖掘。
以 GPT-3 为代表的话,这里面跟开源也有关系,GPT-3 模型背后,解决大规模训练的技术,其实还没开源的。即使有些公司有 1 万的GPU,有些很多数据是训练过的,框架层次做了非常深度的优化,千亿级参数的优化,需要用到模型运行、流水并行的技术,现在开源框架还做不了,这是一个问题。
我要广告一下,OneFlow 就是为这种目的而生的,OneFlow 开源出来之后,对这种非常大规模的模型,不需要用户去定制开发,比如说安防领域,有千万级的人脸识别问题就可以做了,广告推荐系统是百亿、千亿级特征的,也不需要定制就可以做了,大家有这种需求可以尝试一下。
黄之鹏:(黄之鹏,华为计算开源生态部副总监)我说点悲观的,我从另外一个角度来说,因为我主要是偏开源运营的,我觉得是现在有一个巨大的海啸在朝我们涌来,但是我们可能还不太感觉,华为像是在远洋的巨轮,已经先感觉到了。
我们正在逐步迈向物理上隔离,虚拟意义上互联的状态,这种情况下对于开源的挑战是什么,对 AI 的挑战是什么?
回到刘明老师说的三个方面,这个物理不光是机器包括信息,包括物理上的隔离,后面更加强调各个区域自主本地化的世界,那么开源怎么做?我们之前理解的开源是世界是平的,包括修正案的保护、许可证,我们所熟知的一切东西,可能都是要改变的。
再往前推,我个人认为,做框架的话,如果你不能掌握像编译器这类的基础设施的能力,不会跟硬件做系统级优化的能力,不掌握硬件的话,以后真的什么都做不了。
现在还没有广泛到大家感觉到,阳光、空气、水会不会断掉?我们已经感觉到了。其实对于做开源,我们所遇到的困难,可能是其他公司做开源的同仁感觉不那么明显,我是站在相对比较悲观的角度。
三 在开源里你是什么状态,遇到什么问题?
(主持人)刘明:确实,现在是最好的时代,也是最坏的时代,这一年什么都感受到了。
这让我想起2011 年的时候,(工信)部里面说大数据爆了,全年的数据相当于之前一万年。数据引爆的智能、还有云的算力,AI 就不再细谈了,最后该讨论开源。
每次宝秋总来,他就像站在巨人(开源)的身上,从自由软件谈到开源软件。我也是各个时代都参与过,Linux时代当过全球第一个中文Linux版本冲浪Xteam Linux的老总,但因为冲浪当年过早在香港上市、不像现在商汤一样被政府待见,后来巨头发起的OpenStack企业级开源运动也全程参与并利用在工信部工作的资源力推过,包括Richard Stallman 最后一次到中国来,参与过接待。前段时间社区热传一张照片、文嵩和徐继哲还有我在给Stallman演讲前调试一台笔记本,他自己不带电脑,也恨苹果电脑,在场开源大牛们一水标配苹果本,我那时正好在推Ubuntu中国官方社区优麒麟,带着优麒麟电脑,是为东北亚开源论坛出行日韩而特意买的一台联想超极本,他觉得这台可以用,呵呵目前这台电脑和Richard的PPT还一直跟随我放在办公室。
开源是贴近人类文明的开发方式,也是人类进步唯一的、最先进的一种方式。我们这种方式原来以为它很理想,现在发现开源也不理想,也有宝秋总前面演讲中说的坑和这么大的挑战。在座既有陶总这样的开源网红,也有开源最佳实践的巨头。本来我还通过Linux基金会想邀请Zilliz 创始老板星爵来一起聊、他有个观点是国产开源需要更多利他主义,他刚当选当选 LF AI (Linux Foundation AI 基金会)新一届董事会主席。我还邀请过清华伯克利的谭章熹教授、深圳首个诺奖/图灵奖实验室RISC-V国际开源实验室负责人,去年在鹏城实验室与章熹的导师David Patterson一起聊过开源硬件肯定有与软件不同之处,后来RISC-V基金会CEO Calista Redmond来访时我们又进一步探讨过。圆桌就应该从每个人不同的角度,讨论开源应该怎么做。
悲壮的之鹏让我们加速进入了终极话题。大家都是开源的老兵,你对自己、对开源的认识,你现在在开源里是怎么状态,遇到什么问题?
陈天健:(天健的开源加速主义哲学解释很棒,说到点子上,理解很深)。
大家聊开源之前的话,其实可以想一个事,叫做“加速主义”。两个人打架,一个强一个弱,强的人说,弱的人通常在成长,所以我得提早和你干一架,他愿意早打。弱的人因为信息不对称,他腰里藏着 40 米长刀,就等着强的人早打。于是在市场上大家都达成一致,我们要早打。
怎么个打法?在软件的整个供应链上就是开源,一开始在进入开源商业模式之前没有想到这么“有毒”,开了以后发现越来越“有毒”,整个供应链完全开源了,一旦开源再也不能走闭源的回头路了,用的每个部件,供应链上 99% 的部件都来自于开源社区,所以开源是非常“有毒”的一种商业模式,它加速了一切。
你原来要进入细分市场的话,可能要花三年的时间吹牛,三年的时间做现场测试,再花三年的时间看市场的反映,来来回回十年就过去了。
一旦进入开源的软件供应链或是生态的玩法,软件行不行,第一天就有人拿出来评测,一两年你的社区、生态还没发展起来,这个项目基本上就要凉了,所以开源从哲学角度来说,是加速主义的产物。
既然加速的话,我们汇报一下我们加速的成果。2019 年初的时候,我们开源了联邦学习的框架Fate;2019 年年中的时候,加入了 Linux 基金会;现在经过一年多时间的发展,使用 Fate 的厂商已经扩展到十几家,这是我们知道的,未知的还不算。
它创造了一个新的细分市场,就是基于联邦学习的大数据价值交易的市场,基本上复兴了大数据。你在互联网上找的任意一个关于隐私计算的帖子,当中一半以上的厂商,它的内核都是基于 Fate 或者是 Fate 的一种变体。
你会发现,开源的模式对于加速生态的构建、加速试错、加速商业生态的形成、加速软件供应链的重构,是有非常大的帮助的,它加速了一切。
反过来,对于所有的开源从业者提出了挑战,这个坑是你挖的,加速也是你推动的,反过来,你在这个加速的过程中,是不是能跟上节奏,不断的调整商业模式的设计,构建更大的基于开源软件的生态联盟,这是给每一个开源的商业化从业者的挑战。
崔宝秋:今天我讲到“开源新时代”,确实我们面临一些挑战。我可能比较乐观,最终会过去的,过去一两年我关注的是巨头后面的寡头垄断,开源界的寡头垄断。就是控制权,不够那么开放、不够那么中立、不够那么平等,不够那么全球化。今天的形势把这个给扩大化了,给加剧了,但是我觉得长远来看是会过去。
我可能是一个乐天派、乐观主义者,我相信开源是人类科技进步的最佳模式和平台,包括数据、人类的知识是属于全人类的,用某种形式传承下去,把这个全人类的巨人一直呵护下去,这个我觉得是有可能的。
当然最近一些比较敏感的话题让我们看到一些黑暗的一面,比如说华为同事看到的一些东西,我们也看到了,行业中可以看到一些不好的事情。原来说开源,应该是没有国界的东西,现在慢慢有国界了。
因为开源许可,不管是 GPL,还是 Apache 也好,谁来解读它?很多是来自于美国,谁来执行它?所有的法律法规,解释权在哪里、执行机构在哪里?开源本来是全人类的事情,变得有国界了,挺让人觉得这是可悲的地方。
所以我特别希望咱们中国要做一些自己的事情,开源的一些东西,我觉得应该推动一下,更加开放、更加中立、更加平等、更加全球化的一些许可和法规,真正让开源变成全人类的事情,而不是一两个国家的事情,或者不同意识形态的事情,就像食谱一样,大家都可以做,有些算法大家都会知道,这是属于全人类的。
我觉得一些黑暗的东西,今天看的一些倒行的事情,我认为是暂时的,慢慢会过去,希望中国在未来的世界格局中,会扮演越来越重要的角色,中国可以推动一个更加极致的开源,为下一代的文明,咱们可以推动一些事情,我是乐观的。
田忠博:感觉这个话题比较复杂,对于开源来说大家理解不太一样,有些人觉得是挑战,有些人觉得是机遇,有些人觉得是责任,有些人认为可能是商业,包括旷视做开源,很多人有一些猜测和想法,我现在没办法代表公司发言,我只能代表我自己,我自己是怎么看这个事情,包括我的团队。
其实开源是非常自然的事情,我经常和团队说,代码是工程师的自然语言,在最低的限制上,开源是工程师、研究员相互交流想法的一种方法;在最低的限度上,任何的一种代码都应该被分享出来,希望用这种方式连接更多的智慧、更多的想法,我们可以看到深度学习、看到人脑,本质上是连接的智慧,希望通过这样的方式能够促进。
所以我会觉得对于开源,不希望它复杂,希望它能回到本质的属性,是一种交流、一种拓展。大家可能认为旷视刚做开源,其实我们一直都是通过论文或者是其他方式,把我们最新的研究成果开源开放出来,确实天元是旷视第一个大型的开源项目,还有非常多的困难,非常多的问题需要克服,但我觉得终将走向一个让大家变得更好的趋势,这也是我们做这件事的本心和初心。
陶建辉:我分享两个方面。一个方面是特别好的方面,我自己感觉开源对我公司带来巨大的价值,市场、品牌一下子就起来了,我们本来前面做两年也卖了将近十个客户,也没什么人知道我们,开源以后,中国的开发者真的是没有不知道我们的,现在也有美国、德国、意大利、西班牙的用户。
我们去年 7 月份宣布开源之后,我们有 5 天时间是在 GitHub 趋势榜排名第一,我们就在这周一,8 月 3 日,我们把核心的集群功能开源,宣布之后,今天是第 4 天,已经连续 4 天排名第一,大家可以搜一下叫 TDengine,里面有我自己写的 4 万多行代码。这是好的一面,很鼓舞人心,觉得自己写的代码有价值,我们毕竟是写程序的,要有人看、有人喜欢这个程序才有价值。
另一方面,在中国做开源是个极其难的事情,为什么?软件几乎没人买,软件很难很难,Oracle 在中国的销售额只占全球的 4% 不到,在中国做开源谁买单?任何一个好的软件要生存下去,必须有商业和钱驱动,谁来掏这个钱?像Linux的个人英雄时代已经不在了,一定要背后有集团和商业利益在驱动。这个东西偏偏在中国不具备这样的土壤,因为大家不愿意为服务、为软件买单,开源在中国站起来还有很长的路。
我们公司选择做开源真的是相当相当难,我自己和别人有点不一样,我是海归背景,我从成立的第一天起,就认准中国赚不到钱,开源,我是拼命想做欧美市场,偏偏现在又有意识形态之争,让我们的未来充满着变数。
如果你们想用开源在中国做生意,是真赚不到,而欧美市场,像意识形态的原因,真的是充满太多的变数。
袁进辉:我们也是做开源的,也是创业公司,陶总说完让我心里拔凉拔凉的。
我们经常说开源的正面,我说一个是比较少想到的,开源有一个负面的作用,它可能是扼杀创新的。就是开源的东西出来之后形成一种生态,我们可以想象它像一个黑洞一样,很多的应用、算法、开发者都是围绕着它的,有什么新的东西出来,都被这个已经成为“标准”的东西吸进去了,如果有个团队,有个新的想法的时侯,会被吓倒,大部分人一看开源这个东西太庞大了,工程上也非常庞大,生态上也非常难以逆转,有时新的想法不是那么容易尝试。
比如我们做深度学习框架,三四年以来被频繁的问这个问题。就是 Google 做了、Facebook 做了,微软、亚马逊,国内的华为、百度都做了,你一个小小的公司,你凭什么做这个事情,你怎么出来等等一系列的问题。
所以说这个开源的东西形成了一种生态之后,有一些主流的玩家以后,新的想法不太容易出来。而且很多算法我们可以调用,现在有一种叫调包侠,它(框架)做得已经非常容易了之后,形成一种懒惰,底层的东西我不去了解。
有的时候做复杂的创新,比如说早期的 AlphaGo,这个创新背后都是带着复杂的系统工程,即使有的团队想过这种想法,没有系统工程的能力支持,也没法做。有的时候造成一种懒惰之后,就会阻碍创新,特别是国内,我们不要满足于成为调用别人 API 的人。
第二个我想说的,开源提供了非常大的机会。我做一个类比,以前一个演艺人员要成为明星,只有走中央电视台、上电影;但现在像李佳琦、李子柒等,只要他有才华,他通过自媒体、社交网络,是有非常快速出来的通道,开源就是这样的市场。
我们知道很多知名的机器学习领域用得多的软件,不是大的商业公司干的,是个人英雄主义干的,陈天奇、贾扬清早期的项目是个人做出来,大家觉得好用以后在社区里就像指数传播、网络效应,飞快就起来了,这是非常好的机会,英雄不问出身,不一定是大公司可以干的,能力很强的人、很强的团队、创业公司,我认为也有机会。
第三个我想说一下,像宝秋说的一样,我也是乐观的,我也觉得国内的人现在面临政治的冲突,但是不要因为这个因素变得封闭,而要更加开放,要有全球的视野、全球的胸怀。
非常好的开源软件,像美好的文艺作品、电影一样,就是人类优秀的文化、文明的成果,我们应该实事求是的承认,国内以前在这方面,是比较少有非常优秀的贡献者。我认为这个时代到了,从应用的牵引,很多互联网公司和 AI 公司应用层次完全不输于国外,人才积累也到这个程度了,我们国内的开发者应该有这种志向,创造出非常优秀的开源项目和作品。
黄之鹏:感觉我是抢先打开了一个潘多拉盒子。我也说点乐观的,刚才说了很多我觉得会产生的挑战,背后意味着什么?其实对中国做开源的人是件好事,意味着无论是国家、企业还是社会,开源或是专业复合型的开源人才越来越重要,大家原来认为开源是文化上、精神上的,只有经过转变,很多公司才会意识到开源是非常复杂、综合性的事情。
我大概说一下我个人对后面发展的理解。
像刚才我演讲中讲的,MindSpore 整个社区的章程是我一手写的,它的社区治理、开放性我敢说放在国内是非常领先的。我们让渡了很多东西放在社区里面。其实我们可以完全像谷歌一样,为啥我们华为出人出力,还搞一个技术委员会在上面管着我们?这是因为我非常坚信整个开源开放,包括治理这一套东西的有效性,不是什么东西能够推翻的。
当时未来可能会改变的东西是什么?一个是我们未来会越来越面临物理上隔离、虚拟上连接的一个社会,所以来说,未来我们经常会做的一个,就是大量的本地化的事情,现在大家觉得写个英文文档基本上已经打遍天下了,未来可能不够用。而且大家想一下,因为疫情,我们有一个巨大的人才红利,很多留学的人都回来了,中法、中德、中日、中韩很多的双语人才之前在国外工作,这些人才只要我有预算,都希望用起来。其实在国内通过互联网可以做很多这种国际化加本地化的拓展,这会有一个新的变化。
我觉得去年刘老师在力推OpenI启智社区时做得特别好的一件事,也是挺大的一件事就是经常请北****学院张平老师等开源知识产权专家来做讲座,让大家明白开源首先是法律、知识产权、许可证、还要合规治理,这些跟GitHub等代码托管平台一样都是开源社区重要的基础设施,但往往大家普遍缺乏这方面的意识,只关注代码和技术。所以以后开源的人才一定是综合性的人才,他要懂开源社区的法律,专利,开源开发,开源治理,传播这一系列的事情,以后才能把开源做起来。
今天论坛本身就是非常巨大的进步,放五年前,刘老师只能请一批西方面孔,我觉得今天这个圆桌环节本身已经是一个巨大的成功,像袁老师说的,其实在大的尺度上,我也是很乐观的,我对开源从来没有动摇过,我开发所有的知识,都是从开源来的,我觉得它一定会走下去的。
四 听众提问:开源怎么赚钱?
(主持人)刘明:感谢之鹏,危机更多的是”机”,物理世界隔离了,带来虚拟世界的爆发。这是去年从贸易战、科技战到全球大战疫带来的一个趋势,也是全人类的一个机会。
台下听众们有没有要提的问题。
提问(平安科技):我请教两个问题,第一是我们现在开源的话,有没有安全问题?第二是我们做开源产品、做社区,有没有商业价值?在哪里?
陈天健:我们做的开源项目比较特殊,我们做的是和数据安全合作相关的项目,安全问题说到底,开源没有与之比的商业模式,因为谁去认证黑盒?没有后门这样的东西,因此只有开源这样的模式。所以我们对于开源的选择可以说是一种必然的选择。
我们的软件建成了一种各方进行大数据合作建模的一个事实标准。类似于大数据的 HTTPS,这样的话,我们在上面可以进行多方位的,比如说金融业务的变现,构建一个大数据的合作本身就是金融网络的基础,所以我们相对于出售 License 这种模式,我们相对来说还不太受到商业方面的困扰。所以我们才会去投入这种基础设施,通过开源去推动各种标准的构建。
陶建辉:我可以分享一下开源怎么赚钱,我正在写一篇博客,讲我们的开源策略是什么。我是红杉、GGV、明势资本投的公司,我们已经拉了 2000 多万美元,那是一定要赚钱的,我开源不是只为人民服务的,否则没人敢投我。
那怎么赚钱呢?我们采取的模式在美国叫 Open Core 。就是核心代码完全开源,那哪些不开源呢?我们公司的产品不是百分之百开源,大概还有百分之几的代码不开源,辅助性的功能不开源,刚性需求、必须用的全部开源。比如说,像类似于数据库的插入、查询、集群都开源,但是我的异地容灾不开源,一键登录不开源,数据加密不开源。
因为异地容灾,我绝对不会开源,因为像中小企业异地容灾无所谓、数据加密无所谓,没有的话照样跑,像 mongoDB、Spark、Kafka 都是这种做法,现在是美国相当成功的商业模式,叫 Open Core,就是辅助功能不开源。
我陶建辉为什么要做物联网大数据平台,做得挺好还要开源,为什么?我希望全世界边缘计算、物联网平台,里面的数据处理几乎都用陶建辉开发的,不说 70%、80% 的市场份额,超过 30%的市场份额被我占了就是垄断了,一旦你垄断的时候,你就跟微信一样,插个扁担都能开花。
那可以做很多事情,可以做云服务,包括我们选择的 License 是 AGPL,它最大的限制是不希望云厂商用,我开源我可不希望阿里和亚马逊拿来赚钱,正常的公司都可以用。这是我们的赚钱之道。如果我们开源不能赚钱,做不了伟大的作品,我更不可能花钱雇好的人才,微软出来的都是200、300 万,我怎么请得起?公司必须赚钱,才可能做出伟大的产品,才能持久的发展。
刘明:陶老师自己写代码、写文档、写博客、写微信,他一个人都能干还干得好,这就是为什么他能成功?
陶建辉:因为是创业公司,雇不起。(众笑)
五 总结 AI 开源之道
(主持人)刘明:时间已经到了,大家每个人总结一下。
我先总结一下,我们今天有做创业的,像陶总、袁总,刚才一堆人都围着,他们首先是技术明星,做得很Happy。而在座的大企业,越大的企业,挑战就越多,担的责任就越多,苦恼也就越多。但这里面最苦的其实是我,大家不知道,为了开源我进了“佛门”,我还是武当的正式弟子,我就是寻求道。记得之鹏有个同事,是鸿蒙的CORE,曾要我带他去趟寺庙,说做开源太苦了。
最后请大家总结一下,AI、开源你们每个人怎么看,你希望中国在这方面提供什么样的基础设施?中国围绕 AI 开源提供什么样的环境?
这个问题也是我很感兴趣,是我现在努力在做的事情。
陈天健:AI 作为软件供应链当中的一环,现在比较火,但是开源仍然是它的最好商业模式,原因就是它可以有效的降低 AI 的构建成本。我们在整个 AI 的开源环境中,提供的主要就是怎么样去联合各方的数据,同时保护各方的数据上的利益,这一个对于权责利的调整,可能更有助于整个 AI 供应链在数据这一环节的形成。
崔宝秋:我特别想强调,我觉得 AI 开源,或者整体开源会激发创新,开放和开源迟早会激发创新。袁老师讲的会打压创新,就是我讲的那种寡头垄断。
开源也是一个希望,希望咱们国家能保护这些自己开源、基于开源模式的公司,让这些公司赚到钱,我相信是有各种模式的。中国和欧美国家是一样的,中国可以赚到钱的,我坚信这一点。
我希望政府可以在开源上,立一个更加先进的,下一代的法规、许可证,能不能让它更加极致、开放、透明、全球化,这是我特别希望的。我们在开源上需要综合性人才、法律法规的制定,这些先进性是咱们中国必须要占据的。
田忠博:旷视其实是享受了在技术上开源、开放的整体红利,所以我们也是在积极的参与开源浪潮,从我来想,我希望有朝一日通过我们自己的努力,能把大家认为中国人做不好开源软件,我们能做到最好。
陶建辉:我觉得要把开源做好,最重要的是中国要把尊重知识产权真正做好。我就说一句话。
袁进辉:如果用一两句话说的话,我们希望做出世界领先的、创新的技术,引领潮流的项目。
就像刚才宝秋总说的“不重复造轮子”如果别人做的很好了,那的确没必要重新造一套,而且还不如人家,我们又必须说为了安全的因素,必须要用一样,这个我是不太赞同的,我赞同的是造出来比别人好,不光是自己用而且全世界用,这是我追求的东西。
黄之鹏:AI 开源对于我来说,主要是希望国家能有更多的自研的硬件,自己的算力,开源开放的数据集,这个特别重要,而且重要性会越来越大。
然后作为对开源文化普及的一部分,就想说一下刚才陶总的那个,我是不太认可 Open Core 模式的,还有其他的赚钱的方式,大家可以自己去网上搜一下,这个是很好的一个,其实北美现在也有这种激烈的讨论。
刘明:时间的原因意犹未尽,我们还有晚宴,私下再进行交流,圆桌讨论就到此结束,我的感觉是非常大的机会、当然也是非常大的挑战,尤其从事 AI、开源两个领域,我们从文化上,我们不太善于协作,开源的核心就是大规模的协作,像 Linux 系统,几百万甚至更多的程序员一起写一个项目,我们怎么避免单打独斗,这是我们开源的一个核心,这是我为什么要去学佛学道,10多年坚持禅修和太极,佛为心道为骨,这个是文化,找到这个根上去。
现在 AI 不光是代码开源,包括算力、数据,都需要逐步开源进化和优化。最近的 GPT-3 带来很大的启示,再次打破常识,甚至被认为是超越 AlphaGo 的技术突破,让人类真切看到了通用语言智能的希望。年初贾杨清在一次报告中给出一个数据,现实的算力需求现在是每 3.5 个月增长一倍,所以算力时代真的来临。除了算力,还有算法,我们通过优化算法、优化软件框架也能进化。GPT-3发布前、OpenAI提出超摩尔定律,AI算法效率每16个月翻一番。微软+英伟达的超级算力,OpenAI的超级模型和算法,这样一个顶级科研与超强工程的大兵团通力协作,带来了“暴力美学”,就这样一个结果出来。所以看来 AI 并不是在衰落,而是非常大的一个机会。
开源通过我们的文化,这样一个物理隔离、虚拟世界的建设,新基建的机会,可能产生一个新的,超越的可能性。我非常坚信,虽然很痛苦也很困难,AI和开源是我们最大的一个机会。
谢谢大家!
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
STK435功放电路
IEEE Wintechon 2025 通过数据、多样性与协作驱动印度半导体未来
STK433功放电路
三菱FX系列PLC教程 35 —— FX系列的区间比较指令
英伟达H200或被批准对华销售
TI Delivers on the Promise of 3G
VC实现串口通信例程
存储卡连接器:SD、SIM 和智能卡如何与设备进行接口
STK4352功放电路
中国智能手机销量最新排名:苹果史上表现最佳的季度开局
TI Wireless Solutions Portfolio
三菱FX系列PLC教程 32 —— FX系列的程序流向控制指令
三菱FX系列PLC教程 33 —— FX系列的传送指令
STK4311功放电路
六类个性影响职业生涯
三菱FX系列PLC教程 34 —— FX系列的块传送指令及多点传送指令
Xilinx Embedded Development Kit 6.2i (c) Xilinx
外企工作护身秘笈
TI\'s Perspective on 3G
继续送礼——嵌入式论文下载(五)
克服3-NM节点的BEOL图案化挑战
Bourns 推出精密直流数字电流传感器系列,具备更广泛电流范围与更高电流承载能力
十一前稿费已经上报,一两天内寄出
台积电提告前资深副总罗唯仁! 隐瞒跳槽英特尔涉泄密
三菱FX系列PLC教程 31 —— FX系列的传送及比较指令
电气波形
意法半导体推出业界首款18纳米高性能应用微控制器
STK4332功放电路
TI 80211g plus 白皮书
Nuvoton科技发布NuMicro M5531系列微控制器