技术开发 频道

45 周岁、IPIP 的七年之痒与最坏打算

  今天,是我 45 周岁生日。

  但是这次没法像往年一样,和朋友们一起吃饭庆祝自己又老了一岁了。

  也好,最近正好打算找个时间聊聊这几年的满意与不满意。

  看标题也知道,其实重点是 IPIP,毕竟自己这几年都是围着它在转,比亲儿子、亲闺女还亲,有些话不吐不快。

  八千字,请看在标题最后四个字的面子上耐心读完。

  满意的部分:

  很多人应该知道,IPIP 是我 2013 年起做起来的一个事情,一开始是兴趣,从最初的中国数据做到现在只差少数几个国家就能完成测绘的全球数据,从几个人到目前的 40 多人,一点点的扩张,从现在能看到的同行的数据质量情况来看,我们应该至少是第一梯队,不敢说是 IP 库行业的苹果,但至少是 IP 库行业的华为了吧?

  这个数据库是我眼看着从 0 开始,做到现在的 655 万行,我们从一片漆黑中一点点的学习、研究、探索、摸索,不断的踩坑、填坑、总结、打磨,形成了一套方法论和团队化的更新维护打法。只要稳步前行,数据质量可期。

  而这六年多,我应该算是除去必要的生活时间,剩下的时间基本上都留给了 IPIP ,包括节假日。

  我们基于我们的版本日志统计了一下,从有记录的 2015 年 11 月 29 日到今天,一共 1580 天,我们只有一天全员没有工作,那是 2016 年的第一场雪,呸呸,某一天,1TB 的版本日志可证,我也想不起来为啥我没在电脑前。。。

  六年多里,我们横跨互联网络、技术开发、数据挖掘 & 研究、地理 & 人文 & 语言知识等多个领域(我们目前管这个领域叫网络地理),光地名翻译就累死一波脑细胞了。我们也有了大量的数据积累,几万个城市信息,20 多万行的 AS 定义,接近十万行的 HOST 解析数据,上万行的 IP/AS 和各个 IRR 的实际对应关系,每天几亿行的 BGP 数据,TB 级的 TRACEROUTE 数据,几千行的我都懒得提了,还有若干几万行起的数据我就不列举了,同事让我保密。除此之外还有大量的各种各样的采集、人工标注的数据,包括合作伙伴提供的数据,就此生成的各种数据,对比,历史,图表,更是不计其数。基于共建共享的前提下,我们也对外免费开放了全球接近 500 个监测点的探测能力,嗯,我们还有没开放的部分。。。

  也许习惯大数据、大数字的看官们会说,貌似也不大嘛,是不大,但是需要深,足够的深,多深才算深,你品,你细品,你仔细品。。。

  甚至严肃地说,如果当初知道要做成这样,我可能也会考虑放弃的,那个时候也是无知者无畏。

  基于以上的情况,我们的数据质量应该说秒杀同行,我们的 TRACEROUTE 路径解析能力也应该是全球最强,包括我们的 IDC、ANYCAST 标签,恐怕不是全球独有,就质量上看,也是没有人比我们研究的更深入了。国内凡是想到有关网络基础设施研究的事情,也基本都会找我这里来。

  而且,我们也应该是全球优异一个可以提供每日数据库更新的供应商了吧。

  2018 年开始,我们也在一并制作 IPv6 数据库,恐怕就我们自己的观察,就质量上也无出其右。某公司近期上线了一个 geoip API 服务,结果一看,哦,目前只支持国内 IPv6 数据,好吧,再一查,开发文档里给的示例 IP 的结果就是错的,笑死我了。

  如果各位有意考察我们同行的数据质量,一定要问问他们的数据积累是什么样的。因为这几十、几百万行的数据本身,只是结果,标注准确与否,背后是基于在这个领域里的各种积累,包括一个靠谱的团队。他们如果负责维护的人没几个,又标榜他们可以做全球数据,我的建议是放弃他们吧。不要想他们的数据质量会有多好了。如果需要的话,我可以出个问题集,保证分分钟让你知道真相。

  不算题外话算是上面话题的佐证,我们去年参加台北的网络会议的时候,一个公司名字跟我们的 IPIP 很像的做网络基础设施的欧洲公司的老外 CEO,在同桌吃饭的时候,听他同事介绍我们的事情,就巴拉巴拉的说了一堆,大意是他不认为 IP 数据库可以做到足够好的质量,还给我们算了一堆数字,42 亿个 IP,几万个 AS 啥的。我和同事没当面反驳,主要是俄语不行,沟通不畅,不过我相信未来我们会给他证明的。

  你可以这样理解,我们搞定了一个在别人眼里不可能完成的任务。

  下图可以证明一下一万小时理论:

  这是我家里的显示器,2016 年 8 月购买,你可以自己算一下,我平均每天在家的对着显示器的时间有多少,而且我在办公室也是基本上除了周末不去,出差不去,工作日时间下午都是在公司办公的,只是个那个显示器记不住购买时间了,也许是 2013 年吧,使用时间也接近 10000 小时了。而且根据我的实际对比判断,这个使用时间应该比我实际使用的时间少。

  根据这个大概算算,这六年来,我已经累计至少投入 20000 小时以上了。

  而且做为一个互联网基础数据,但凡有点规模的互联网公司都会需要的数据,我们如此努力的结果,也让我们的数据在行业的口碑非常之好,很多客户都是基于口碑找过来的。

  从我的初心来看,从接触电脑和互联网到现在,一直想做一个牛逼甚至在全球都牛逼的事情,这个心愿算是做到了。

  咳咳,重点来了,但是,不满意的是什么呢?

  简单的说,投入,回报。

  投入是指我们如果想做的更好,还需要增加更多的人手,包括更多的数据源,才能把数据做得更好;回报是这事情做了六年多,在商言商,应该也必须要有回报了。

  这几年我的大部分精力都集中在数据本身,无心关注销售,有收入有增长就好,所以选择的路数是最简单的,就是把苹果、华为级别的产品卖成山寨机的价格。。。

  看着很好很舒服,有很大的隐忧。

  一则截止到去年底,在我们那个非常低的价格下,愿意为这个数据付费的企业客户数据依然不过三位数而已,二则我们的收入在去年,单论 IP 库产品,算下来是亏损的,而且假设 2020 年不改变的话,收入也不太会增长了,因为客户数量早就到头了。

  而目前的收入顶多可以打平成本,这还是在把我的工资算得比较低的前提下。

  有人说,去做海外啊,是啊,我也想,可是一则你知道一个有海外销售能力的销售的待遇有多高吗?二则从接触到成单,周期有多长吗?你是觉得在国内雇俩懂英文的人打打电话就能搞定了吧?

  而且,目前的贸易战,对我们是有实际影响的,具体就不在这里说了,所以短期也指望不上海外收入了。

  说句不好听的,我们如果是一个传统小公司的话,这次疫情出现,可能我们最多坚持一两个月就要宣布倒闭了,你可以理解我们现在的情况是什么样子。

  穷,就一个字。

  当我们之前就意识这是个问题,但是在 2019 年底算细账的时候才彻底的意识到这个情况已经很严重的时候,我陷入深深的思考,如何破局?

  跟一个朋友聊天,说起这个事情,他说他能看到的情况是,“前三年,你是靠兴趣做事,再三年,你是靠热情做事,但是恐怕这三年甚至,你必须也只能靠利益做事了。”

  也是人之常情。相比那些有钱人,我还是个穷人。而且利益驱动,也没错啊。

  问题是如何选择改变?

  是像有些朋友说的那样,稳妥一些,每年涨个 20%,一直涨到你的心理价位?还是来把大的,尽量一次性搞定?

  前者的方案,对我们比较难,且不说质量只说价格,我们假设锚定同行的几万美金作为我们的价格目标,每年涨 20%,要涨几年才能完成这个任务?更何况我们的数据质量比同行好很多,恐怕是有生之前完不成系列?

  而且即使你每年只涨 5%,客户同样要跟你砍价砍价再砍价。

  说个有意思的事情,因为疫情原因,我们这个春节期间接到了几个客户的微信组群数据求助,具体不说了,但是有个客户有句话,大意是这是我们应该做的,让我心里很不爽,有话但是没当面说。我是想说,我可以出于疫情帮助你,但是你把这说成我应该给的支持,恐怕我们所有跟客户的合同里没有约定。我们收取的费用,仅仅是数据服务的钱。想要承诺支持,可以,请先联系我们的商务。

  不给马儿吃足够的草,还想让马儿跑的好?

  从时间上,我也不愿意这么干了,我的年龄、精力在这里摆着,你还指望我熬夜干这事再干五年吗?那个时候我就五十啦,想想就可怕。让我成为一个潜在甚至是极大可能的单点故障的根源?还是希望公司有足够的收入,让这个团队可以不用依赖任何一个员工而可以做到可持续运营?

  大家如果对这个数据有质量上的依赖,支付足够的代价,也是应该的。

  而且我们做为一个数据提供方,其实最合理最能体现自我价值的方案是提供 API 给客户,按量计费,可是我们的客户群体又偏偏是大公司居多,大公司的业务情况又很难接受纯粹的 API 方案,这本身就是个两难。

  当然这一切的前提是你认可我前面说的我们的数据质量是足够顶尖的,也要明白基于我们数据的准确性对于某些互联网公司来说,是刚性需求,这是我们讨论这些话题的基石。

  我们最后决定,选择了后者,来把大的。

  赌的是我们认为有足够的互联网公司愿意为好的数据质量支付足够的代价。

  就让我们看看对于互联网公司来说,到底是你们公司的业务保证重要,还是这五位数六位数的钱重要?你们很多的员工不愿意,总是拿着我们之前的报价说事,也有拿着我们竞争对手的(对比方式其实是错的,拿不同的授权价格做对比,真的不合适,以后再谈),我觉得那为啥他们便宜你还来找我谈,你去买他们吧。

  有一天看到一句话,大意是人们都喜欢跟卖的便宜的说质量,跟质量好的说价格,果然。

  问题是我们方法论是对的,成本也是高昂的,明显的亏本买卖你做吗?

  但是在中国,往往价格胜于一切,一切都讲性价比,其实还是以价格为主,而不是质量,所以我们也不知道未来是什么样子。

  我只知道,今年底,如果就维持现在的这个收入情况,我可能考虑不继续做了。以前把苹果、华为卖出山寨机的价格,我认了,但是未来不会这么干了。

  假设年底的最后收入不能有足够的增长,会有几个可能性:

  1、彻底不做 IP 库了

  2、只做中国数据

  3、只做中国数据和客户指定的国家

  选择 1 不太可能,因为真正的投入包袱是海外数据,去掉的话,还是做下去的;所以对我们来说最合理的是选择 2,其次是 3。

  而且一旦选择,恐怕不可逆,因为我们的编辑队伍都是要长期培养的,如果缩编,我相信我 99.99% 没有耐心从头再来一遍,所以不要到那个时候再跟我讲,钱不是问题。早干嘛来着?

  所以今天选择在这里,提前说清楚。

  这刚过去一个季度,目前还不能说好与坏,到下半年再说吧。

  最后,还是要感谢目前在我们的销售策略变化之后,不管过程如何,但依然能够达成继续合作的客户们,我们也希望未来能够一直保持同样甚至更高质量的数据给你们,这也是我们这个公司之前存在和未来能继续存在的价值所在。

  我也更希望,这次大变动之后,我可以更安心的去做技术和数据方面的事情,发挥自己的长处,而不是一份钱难倒英雄汉。。。

  这就算是借我这个 45 岁生日,做的一个总结吧,虽然和生日关系不大。。。

  另外,今年的云主机报告,季度进展,大概率不会有了。

  休息,休息,休息一下。

  最后的最后,我就知道有些问题一定会被问,所以提前写个 FAQ 给大家。

  问:老高你这文章看着有点像威胁啊?

  答:其实是无奈。在中国,很多时候,是劣币驱逐良币的。

  很多公司,认可硬件、员工的价值,却不认可数据、软件、授权和服务的价值,值得深思。

  如果说是威胁,那也是阳谋,摆明车马,大家看着办。不然你说你是大公司,要我们给优惠的时候,我感觉也像是威胁。。。

  问:你们这么贵,那就用别人家的呗,凭什么非得用你们的?

  答:当然可以买别人的,但是如果贵公司某些业务比较依赖于数据质量,比如 CDN / DNS / SD-WAN、地理围栏,甚至跟收入密切相关,比如风控、广告投放,那么寻找足够好质量的数据供应商,就是你应该做的,而不是单纯考虑低价格。

  这个事情我们做了六年多,也一直在观察同行的数据质量,最终发现大部分的同行数据的质量都是不合格的,比如最普遍的就是大部分都以 IPWHOIS 为主做数据,甚至是抄袭别人家的,这点有兴趣我们可以以后再慢慢证明,这个方法是上世纪的方法了,明显是达不到我们认为的足够的质量要求的,但是最大的好处是省钱,凑几个人就能干了,所以卖多少钱都是赚的。我相信我们的方法论是对的,现在需要的只是更多的时间和更多的投入。

  至少在我们目前看到的情况下,至少以我们目前的价格来看,你找不到更好质量的数据提供方了。单纯追求价格低的,可以用纯真,免费!

  你也可以说,貌似同行的数据质量也没那么差啊。

  是啊,由于我们的出现,导致同行的数据质量多少也在变好,只不过手段上只能说呵呵了。

  举个例子,纯真数据库,有一次更新,把中国数据几乎从头改到尾,我对比了一下,基本上是我们中国数据的翻版。

  我说这个事情,不是想说抄袭本身,是想让大家思考一下,如果没有了我们,同行们没有了抄袭对象,会是什么样子?会不会逐渐下滑,一直下滑到大家不能接受,但是那个时候你觉得还会有我这样的人再站出来吗?即使有,质量能做到跟我们现在相比吗?即使能,要花多少时间才能做到?还是只是在供应商列表里又多了一个选项而已?

  春节晚会有个小品节目叫《看车》,里面有个台词比较有意思,大意是说,你今天耽误了我的生意,后果就是明天方圆五公里,煎饼果子里没有鸡蛋。。。

  照着这个,你们可以仔细想象一下,没有了我们的结果是啥。个人觉得结果就是质量慢慢下滑,然后你想花钱买都买不到好质量的数据,也许有,更贵。。。

  真到那个时候,恐怕头疼的不是我。

  另外,我们也知道纯真这事是谁干的了,我们也知道有些公司规模和商誉不成正比的,要么超出授权使用,要么拿着我们的数据满天飞的送人情。所以收紧数据的流出,在授权合同上严防死守,甚至在数据里做上标记以便溯源,也是我们无奈也是必然的选择。

  有一个数据可以告诉大家,我们网站上的查询页所对应的请求量,根据我们的判断,爬虫率高达 98 % 以上。有一个算一个,都是想白嫖的。

  有句话说的好,价格是最好的过滤器。

  当然,有些公司也许是因为便宜,所以来买的我们的数据,而实际上一年更新几次,在我们看来,其实不买也行。这样的公司,你给他涨价,反而他会说,我一年才用几次,凭什么这么贵,来跟你砍价,甚至会跟你算成本算到骨子里。

  现在只能说抱歉了,您这么个用法,可能不是我们的目标客户,或者用我们的 API 就够了。

  所以我们的目标客户应该是相对价格来说,更看重数据质量的,我们才有的聊。光是想价格优先的,请看我前面的那句话。

  问:你们之前价格一视同仁,怎么也做成针对客户报价模式了?

  答:我前面回答过,最合理最能体现自我价值的方案是提供 API 给客户,按量计费。

  但是现在的现实情况是要把数据文本直接交付给客户。

  且先不说竞争对手拿到如何。光是如何更好的体现我们的数据价值,就已经是个问题了。

  说句不好听的,我们卖 API 给小客户的价格都可以比交付文本贵了,那我干嘛要以低价格交付文本数据给大客户呢?

  即使可以的话,那价格起码得有个比较大的差别才合理吧?10倍?100倍?

  所以我们最后选择了跟同行类似的方案,或者说企业服务都会采用的方案,Contact Sales。您也许觉得就是一拍脑袋想个价格?也许有一点,但是您在这么想之前,先算算我们的数据在您的系统的请求情况,再看看数据质量对你们业务的影响,再来说我们的报价贵不贵,如何?

  到处都在讲数据驱动,你依赖的基础数据是错的,你的结论会有多大偏差?

  我经常讲的例子是,你的广告系统会给上海的用户看北京的 4S 店的广告吗?

  再重复一次,价格是最好的过滤器。

  再者说,同样的价格,卖给大公司和小公司一个价格,如果对照 API 的方式来看使用情况的话,你觉得我们歧视了大公司还是歧视了小公司还是歧视了我们自己?

  严格的说,我们现在卖的不是数据本身,而是这个数据在您公司使用的授权。

  最后说一句,在看我们同行的价格时候,请仔细对照看对应的授权条款,你就会发现,同样的授权下,按照我们的质量和价格,如前文我所说,我们是良心中的战斗机。。。

  问:如果客户已经可以接受你们现在的数据质量了,那为什么还要增加投入?维持不就可以了?

  答:第一:客户需求不一样,比如有公司需要非洲、南美洲的数据,做不做?有公司需要 IPv6 数据,做不做?

  第二:我们目前的质量维护是靠我和团队的全力投入、不计回报做到的,短期可以,长期呢?所以我们希望通过增加更多的投入平衡我和团队要长期承担的压力,比如更多人手,比如待遇、福利,不得不说,我们目前依然是按照小公司的低成本模式在做这个公司的,但这个方式对于长期运营是非常不利的,甚至有很大风险。

  第三:即使目前的质量可以接受,我们不再追加投入,那在商言商,利润从哪里来?

  还需要说明一点,有人问我,貌似 IP 数据是两个极端,要么极好,要么极烂。为什么没有中间态?就是价格中等,质量也能接受(是指真正意义上的质量)的数据?这个问题也困扰了我,我思考了很长时间,得出的结论是,这个库的维护压力很大,要么你做到的是负循环,你的数据维护速度跟不上网络的变化,就会越做越烂;要么你能做成正循环,数据维护速度不但可以跟得上网络的变化,还能有余力继续推进更多的国家、更多的标注,就会越做越好了嘛。问题还在于网络的变化并不那么固定,时少时多,你的编辑却是要长期培养的,甚至是可遇而不可求,根本没法走兼职或者临时工模式,你不能因为这两天变化少了,你就让人离职吧?所以你只能是准备足够的编辑,忙时你不怕,闲时也有足够的事来干。

  问:你这个是边际成本很低的东西,凭什么越卖越贵?这不合理啊?

  答:您说的没错,其实这之前我也这么认为的,但是总觉得哪里不对,后来有一天突然想明白了,至少在我们这个事情上,边际成本低不低这个问题,并不重要。

  有句话叫抛开剂量谈毒性就是耍流氓。我们换个说法,不谈客户数量谈边际成本低不低,也是耍流氓。

  举个极端的例子,还是做 IP 库,我如果只有一个客户,那谈什么边际成本很低呢?

  结合前文说的客户数量,我觉得我已经说清楚了。

  问:你们给我们的报价,我觉得我们都可以自己做一个 IP 库了,为啥要买你们的呢?自己做啊。

  答:中国互联网行业充满浮躁,觉得自己是功能较多的,是啊,不考虑成本的话,什么都能自己干啊。

  真实案例是,我们有客户确实是折腾了几个月,被现实打了脸,理性选择下还是选择了继续购买我们的数据,虽然这是提价前的事情。但是我也不觉得提价之后,能够有让你自己做一个库的本质变化。

  你摸摸良心自问,一个 40 多人的团队全力做了六年多的事情,哪有简单的?

  可能你还不理解,我再强调下,我们这个是一个有明显门槛的强运营的数据维护业务,是个脏活累活苦活,还容易背各种锅。而不像软件开发迭代,按照版本规划开发完了,大部分人员就可以撤了,下个版本可以再堆人。我们这个事情的强度有点像运维岗位,我们不追求 24 小时值班,但是我们需要做到 365 天维护更新,你想想区别在哪里吧。举个例子,截至目前为止,有 IP 公告的 AS 有 70000 多个了,你可以算算,如果假设固定的每几天每个 AS 里的 IP 都会发生变动,哪怕都是最小单位,对我们来说有多大压力?实际上,平常的周六周日如果不加班的话,周一恐怕是一周最难过的了,因为你要顶着消化三天的网络变化。那放个春节、十一大假咋办?这恐怕也是前面说的那位老外 CEO 不看好的依据之一吧。

  幻想可以完全自动化的人,您也在一边先歇会。我做梦都想,可作为一个技术背景的互联网老兵,带着团队吭哧吭哧做了六年多下来的答案是不可以。别问为啥,问就是自己去试。

  还不服?还觉得自己天赋过人?看来我是说服不了你了,换个人吧。

  韩寒:想虐潘晓婷的那个晚上,我一直在开球!

  作为公司技术团队领导人的你,建议你把这篇文章用大字号打出来,贴在显示器前面,经常的温故而知新。。。

  顺便说一下,之前一些国内的技术会议上,总有一些 ppt 里会有那么一二三页写他们如何制作 IP 库的,基本上有了我们之后,这种情况貌似没有人再去写这个话题了。因为想跟我们比专业度,是不可能的了,我们的同行都没戏,无它,数据质量说话。

  我继续干,你随意。。。

  问:看你文章和播客节目里经常貌似提到嗓子发炎,已经好几次了,为什么?

  答:很简单,忙的没有时间运动(起码现在还是个借口,希望各位客户以后不会给我用这个借口的机会),几乎一年熬 365 天夜,咽炎 ,抵抗力差,你可以认为这是熬夜后遗症。而实际上在做 IPIP 这个事情之前,我是按时睡觉的。

  问:你现在心情如何?这个事情如果不做了,你干嘛去?

  答:不喜也不悲。现在天天努力熬夜干活,主要还是因为自己想要做好,跟钱关系不大。要赚钱,也是为了团队和长期考虑,我也希望我能做更多的事情,而不是担心精力牵涉和投入问题。

  说句老实话,所谓七年之痒,面对这几百万行数据,这几年我也干的有点厌烦了,所以我对好的结果、坏的结果都能接受,唯独对依旧维持现状不能接受。这意味着没法解套。

  今年我依然会负责任的坚持把数据做好,未来看今年底的收入情况。

  该决断该放下的时候,放下也就放下了。数据质量好坏,关我屁事?因为数据质量变差,贵公司的用户体验降低,甚至影响收入,又与我何干?我也从来不会走回头路。反而我家闺女要上学了,非北京户口,需要有更多的现实考虑,拍拍屁股回老家也不是不可能。也许到时候可以考虑给大家做做培训,IP 库从入门到精通,保证你少走很多弯路,少踩很多坑,收费 30 万起如何?不包教包会。

  给朋友看过文章草稿之后,朋友说,“还有一个选择,就是把家和公司都搬到美国吧,而且美国对网络基础设施研究也比这边重视的多,从个人角度,你能发挥更大价值,你们在墙内是棵活的很艰难的草,也许在墙外可以长高长大呢。”仔细想想,也不是完全不可以吧。既然作为一个网络大国之一的整个互联网行业都不能支撑我们好好的活下去,为什么不能去另一个网络大国试试呢?

  -- 2020 年 3 月 27 日,45 周岁生日,

  今年第二次嗓子发炎刚好缓慢恢复中

  题图:冰山。很多人估计会很奇怪,为什么过生日发个冰山配图?嗯,别往年龄上想。你可以猜猜,我们跟你说的那些数据的信息是水面上的一截,还是水面下的一截?我听朋友跟我讲,有些人听了我的一两个小时的内部分享就觉得自己也可以做库了,你当我 20000 多小时的投入是天天在睡大觉吗?所以联想到了这个图。当然我们的数据还可以努力做的更好,这个图也算是给 IPIP 的目标吧。

注:本文作者 高春辉

0
相关文章