王:对数相除,评价标准,消除关键词?
XIN:都用到
王:评估方式
XIN:JUNCHAO
盼:对现有的给定的词效果较好?对某一类语料(新闻)?
XIN:当时只有新闻语料库
王:分词,中文是jieba,英文是NLTK。jieba分词之后词元较小,是否需要调研其他分词方法,避免分词太碎?
XIN:讨论之后用的jieba,词分的很细;分词之后再做组合。
秀:是否用过其他针对中文的分词工具?
XIN:北京方面已经做了工作
王(XIN):衡量不同的分词工具的效果
王:Topic rank是否进行测试?
XIN:英文已经测试过,中文的测试让济南或北京测试(java运行负载太大)
XIN:斯坦福的方法现在可以替换
王:场景适合于提取摘要?很少的关键词?
XIN:text rank,topic rank,句子分类都有些困难;长文章现在成果较好
XIN:工业界涉及到短文章,先通过人工标注一下,再应用NLP技术
王:新闻语料是自己收集的?
XIN:不是通过网络爬取;语料类似于电子图书馆
王:比较常用的学术界语料库?
XIN:万方?
M:做学术论文是否用语料库?
XIN:使用的是新闻语料库,学术新闻,而不是社会新闻
M:新闻语料库来源?
XIN:工程院database
M:评估分词是否与JUNCHAO一起做过?
SHU:jieba(快),清华分词(好)
线下
GUO智能问答
税务事业部:补交税款?
工程工作:使用科大讯飞接口,将语音转变为文本;调用第三方的知识库;
算法工作:NLP分词效果不好,影响智能问答;
M:用户场景?
M:怎样验证提供的材料是否有用?
M:nlp中对text rank是否改变?
王:未
秀:技术中心的分词方法,与Jieba分词不同
M:比较不同分词的结果,比较方式?
秀:1)了解新闻语料的规模,词典。2)技术中心只需要调用服务测试。需要重新找到新的数据集,查看数据集的情况。
秀:找100个句子,字数在100个以上(方便人工标注),用于测试
M:谁负责工作?
秀:看下分词的情况。???看下分词效果怎样。
秀:是否调用词库;语料是什么样的?
M:邮件谁负责?
秀:and 王
M:如何做个测试?测试所阐释的用户场景?如何分工?
王:ok
M:静参与进来
M:产品最终的语言定位?
王:.so文件,不太好用,简单的可行。
M:处理算法优化怎么做?
M:1)github源代码2)网上论文