自然言語処理

transformersで日本語感情分析

はじめに daigo/bert-base-japanese-sentiment が使えなかったので、簡単にやる方法を探した。 簡単! 事前学習済モデルを利用したテキストデータのネガポジ分析 - Qiita を参考に、koheiduck/bert-japanese-finetuned-sentimen を使わさせていただいた。 go…

transformersで日本語感情分析

daigo/bert-base-japanese-sentiment が使えなかったので、簡単にやる方法を探した。 簡単! 事前学習済モデルを利用したテキストデータのネガポジ分析 - Qiita を参考に、koheiduck/bert-japanese-finetuned-sentimen を使わさせていただいた。 google cola…

mecab-neologdのcygwinへのインストール

mecab-neologdのcygwinへのインストール cygwinではsudo がないのでコケル以下の通り http://kivantium.hateblo.jp/entry/2015/03/15/175612 を参考に git clone https://github.com/neologd/mecab-ipadic-neologd.git cd mecab-ipadic-neologd git pull ./b…

シェルスクリプトでお手軽な文書の形態素解析

シェルスクリプトでお手軽な文書の形態素解析test.csv 日付[TAB]xxx[TAB]xxx[TAB]xxx[TAB]xxx[TAB]xxx[TAB]xxx[TAB]文書[TAB]xxxx while read i; do str=`echo "$i" | awk -F"\t" '{print $7}' | mecab -Owakati` date1=`echo "$i" | awk -F"\t" '{print $1}…

mecabにwikipediaとhatenaの辞書を追加

まず、wikipediaのタイトルとハテナワードをゲット: wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz wget http://d.hatena.ne.jp/images/keyword/keywordlist_furigana.csv 次に,辞書用CSVファイルに変換 例えば、 ht…

mecabの未知語処理

mecabの未知語処理 まず、http://www.mwsoft.jp/programming/munou/mecab_nitteretou.html でmecabのコスト計算のしくみを学習.コスト -単語の生成コスト+周りとのつながりのコスト -> 小さいルートを選ぶ. mecabの未知語処理 未知語処理は辞書をつかう ht…

文章から連続する名詞をひとまとめにした形態素解析・複合語の形態素解析

名詞をひとまとめにした形態素解析 mecab 一番したのsurface版を使う。 featureだと未知語を無視する問題がある.複合語について http://kw.kait.jp/opac/kkb-022-021._;jsessionid=227623429A2954BED6FEE927770BEEC4?key=DNHDTDhttp://www.nihongokyoshi.co…

mecabとrubyである単語の前後にある単語を取得

以下でなく連続ワード対応版を使う:: (1)node.feature.split(",")[6].encode("UTF-8","UTF-8") -> node.surfece featureだと未知語がでなくなる問題がある。 (2)複合語版を使うべき。 http://d.hatena.ne.jp/arupaka-_-arupaka/20150511/1431327544m…

mecabとrubyで形態素解析して文章を単語に分割してリストにつめる[基本]

mecabとrubyで形態素解析して文章を単語に分割してリストにつめる[基本] # -*- coding: Utf-8 -*- require 'MeCab' def get_feature_from_text(text1,mecab) list1=[] node=mecab.parseToNode(text1) while node.next != nil do node=node.next list1.push(n…

cygwinに日本語係り受け解析器CaboChaをインストール

いろいろはまる。 大元: http://taku910.github.io/cabocha/ 事前に必要なもの CRF++ MeCab 0.98(MeCabは0.98インストール済みとして, 0.99系はうまくcygwinにインストールできず) CRF++のインストール (1)まずはソースの取得 google-codeがおかしくな…

cygwinにchasen 茶筅を導入

chasen http://chasen.naist.jp/hiki/ChaSen/?%A5%BD%A1%BC%A5%B9%A4%AB%A4%E9%A4%CE%A5%A4%A5%F3%A5%B9%A5%C8%A1%BC%A5%EB(1)darts ver0.2 を導入 http://chasen.org/~taku/software/darts/src/- wget http://chasen.org/~taku/software/darts/src/darts-0.…

cygwinにchasen 茶筅を導入

chasen http://chasen.naist.jp/hiki/ChaSen/?%A5%BD%A1%BC%A5%B9%A4%AB%A4%E9%A4%CE%A5%A4%A5%F3%A5%B9%A5%C8%A1%BC%A5%EB(1)darts ver0.2 を導入 http://chasen.org/~taku/software/darts/src/- wget http://chasen.org/~taku/software/darts/src/darts-0.…

cygwinにchasen 茶筅を導入

chasen http://chasen.naist.jp/hiki/ChaSen/?%A5%BD%A1%BC%A5%B9%A4%AB%A4%E9%A4%CE%A5%A4%A5%F3%A5%B9%A5%C8%A1%BC%A5%EB(1)darts ver0.2 を導入 http://chasen.org/~taku/software/darts/src/- wget http://chasen.org/~taku/software/darts/src/darts-0.…

cygwinへのcabochaのインストール

http://cl.naist.jp/~eric-n/ubuntu-nlp/dists/dapper/all/https://drive.google.com/folderview?id=0B4y35FiV1wh7fngteFhHQUN2Y1B5eUJBNHZUemJYQV9VWlBUb3JlX0xBdWVZTWtSbVBneU0&usp=drive_web からcrf++_0.58(最新版)をダウンロード。 ./configure --help…

cygwinにchasen 茶筅を導入

chasen http://chasen-legacy.sourceforge.jp/(1)darts ver0.32 を導入 http://chasen.org/~taku/software/darts/ - wget http://chasen.org/~taku/software/darts/src/darts-0.32.tar.gz tar -xvf darts-0.32.tar.gz gzip -d darts-0.32.tar.gz cd darts ./…