王:对数相除,评价标准,消除关键词?

XIN:都用到

王:评估方式

XIN:JUNCHAO

盼:对现有的给定的词效果较好?对某一类语料(新闻)?

XIN:当时只有新闻语料库

王:分词,中文是jieba,英文是NLTK。jieba分词之后词元较小,是否需要调研其他分词方法,避免分词太碎?

XIN:讨论之后用的jieba,词分的很细;分词之后再做组合。

秀:是否用过其他针对中文的分词工具?

XIN:北京方面已经做了工作

王(XIN):衡量不同的分词工具的效果

王:Topic rank是否进行测试?

XIN:英文已经测试过,中文的测试让济南或北京测试(java运行负载太大)

XIN:斯坦福的方法现在可以替换

王:场景适合于提取摘要?很少的关键词?

XIN:text rank,topic rank,句子分类都有些困难;长文章现在成果较好

XIN:工业界涉及到短文章,先通过人工标注一下,再应用NLP技术

王:新闻语料是自己收集的?

XIN:不是通过网络爬取;语料类似于电子图书馆

王:比较常用的学术界语料库?

XIN:万方?

M:做学术论文是否用语料库?

XIN:使用的是新闻语料库,学术新闻,而不是社会新闻

M:新闻语料库来源?

XIN:工程院database

M:评估分词是否与JUNCHAO一起做过?

SHU:jieba(快),清华分词(好)

线下

GUO智能问答

税务事业部:补交税款?

工程工作:使用科大讯飞接口,将语音转变为文本;调用第三方的知识库;

算法工作:NLP分词效果不好,影响智能问答;

M:用户场景?

M:怎样验证提供的材料是否有用?

M:nlp中对text rank是否改变?

王:未

秀:技术中心的分词方法,与Jieba分词不同

M:比较不同分词的结果,比较方式?

秀:1)了解新闻语料的规模,词典。2)技术中心只需要调用服务测试。需要重新找到新的数据集,查看数据集的情况。

秀:找100个句子,字数在100个以上(方便人工标注),用于测试

M:谁负责工作?

秀:看下分词的情况。???看下分词效果怎样。

秀:是否调用词库;语料是什么样的?

M:邮件谁负责?

秀:and 王

M:如何做个测试?测试所阐释的用户场景?如何分工?

王:ok

M:静参与进来

M:产品最终的语言定位?

王:.so文件,不太好用,简单的可行。

M:处理算法优化怎么做?

M:1)github源代码2)网上论文

results matching ""

    No results matching ""