総単語数 2550億,総文数 200億らしい,すげー
>直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます/このたび、Web から抽出した約200億文(約2550億単語)の日本語データから作成したn-gramデータ(1~7 gram)を公開致しました。
n-gram
n-gram,mecab,形態素解析,自然言語処理
いまさらながらブックマーク。
わざわざ団体を経ているのに、何で商用利用不可?? AdSenceも使えないってことよね? 今の時代にそぐわないんじゃないかなぁ…
人口無脳作りに応用する人いませんかね。
これは面白い!が、個人で見るには値段が・・・。
"今回の日本語n-gramデータは、英語データを作成したシステムに次のような日本語独自の処理を加えて構築しています"" 文字の正規化"" 単語分割"
さて、どう使おうと思ったら商用利用不可か。
"一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます‥このたび、Web から抽出した約200億文(約2550億単語)の日本語データから作成したn-gramデータ(1~7 gram)を公開致しました"
[PR]セックスレスでお悩みの貴女に
はてなブックマークの中から「これはすごい」エントリーを取り上げて、Digg風に表示したサイトです。より人の欲を満たすこれはひどいバージョンもあります。
はてブで「これはすごい」タグを付けると投票としてカウントされ、コメントを書き込むとコメントとして反映されます。はてな認証APIによる投票にも対応しています。
コメント
総単語数 2550億,総文数 200億らしい,すげー
>直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます/このたび、Web から抽出した約200億文(約2550億単語)の日本語データから作成したn-gramデータ(1~7 gram)を公開致しました。
n-gram
n-gram,mecab,形態素解析,自然言語処理
いまさらながらブックマーク。
わざわざ団体を経ているのに、何で商用利用不可?? AdSenceも使えないってことよね? 今の時代にそぐわないんじゃないかなぁ…
人口無脳作りに応用する人いませんかね。
これは面白い!が、個人で見るには値段が・・・。
n-gram
"今回の日本語n-gramデータは、英語データを作成したシステムに次のような日本語独自の処理を加えて構築しています"" 文字の正規化"" 単語分割"
さて、どう使おうと思ったら商用利用不可か。
"一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます‥このたび、Web から抽出した約200億文(約2550億単語)の日本語データから作成したn-gramデータ(1~7 gram)を公開致しました"