加入收藏 | 设为首页 | 会员中心 | 我要投稿 甘孜站长网 (https://www.0836zz.com.cn/)- 运维、物联设备、数据计算、智能推荐、云管理!
当前位置: 首页 > 站长资讯 > 评论 > 正文

这程序员操作可太秀了!

发布时间:2021-03-07 13:58:46 所属栏目:评论 来源:互联网
导读:艰巨的任务落在了我的头上,那就是取名字。因为曾今跟老婆吹牛,自己饱读诗书,文学功底深厚(其实就是看看网络小说),老婆把这任务分派下来之后,我似乎还只能欣然接受。再加上即将成为爸爸的喜悦,让我痛快的拍下胸脯说:没问题,保证取一个好名字。 2. 作

艰巨的任务落在了我的头上,那就是——取名字。因为曾今跟老婆吹牛,自己饱读诗书,文学功底深厚(其实就是看看网络小说),老婆把这任务分派下来之后,我似乎还只能欣然接受。再加上即将成为爸爸的喜悦,让我痛快的拍下胸脯说:没问题,保证取一个好名字。

2. 作为IT人员,有没有高大上解决方案

接到这个任务后,断然不敢敷衍了事,作为IT码农的话,开始拿出了我超强的执行力。首先,我在脑海中一遍一遍的搜刮,各种诗词,散文,小说文学集,古今中外名人,甚至网络小说的主角配角名字。。。然而,尴尬的是,脑容量有限,我的脑海中并没有留下太多可用的资料。作为一个有创新精神IT屌丝,是不是能用些不一样的方案来解决这个难题呢?想到这儿,我的脑海中突然浮现出一个词:大数据。

3. 数据爬取,一步一步来

3.1 汉字

心动不如行动,作为一名有执行力的IT屌丝,我果断开启数据爬取之旅。汉字作为中国文学的基石,自然是我首先想到必选资料。字典类的网站,随意百度一下,就能找到一大堆,我挑选了几个看起来较为专业的网站作为我的数据来源(具体是哪些网站,就不透露了)。经过一番努力之后,最终把7900个简体汉字存到了自家的数据库,数据表中包含了它的拼音,笔画,基本释义这三个基本栏位。数据本地化了,是不是大功告成,可以开始取名了?不,我感觉还是少了点什么,让我想想。。。你应该也想到了,是的,这汉字的信息太粗了,没有多少使用价值,但是那又还缺了哪些信息呢?

  • 繁体
  • 繁体笔画
  • 是否通用规范汉字
  • 汉字结构
  • 造字法
  • 汉字如何拆解
  • 偏旁部首
  • 汉字五行属性。。。

于是,我又开始了新一轮的数据爬取,这一次,能参考的网站相对少了很多,因为很多网站并没有我想要的这些信息。不过,这一步整体还算顺利,只是考虑到怕整崩溃了人家的服务器,只好在云服务器上挂着爬虫程序,高间隔的爬取。一个晚上之后,总量20800的中国汉字库就正式产生了。

(编辑:甘孜站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读