パソコン・インターネット

2020.08.02

自分のブログをベクトルにして分布をみた(2)

自分のブログをベクトルにして分布をみた(1)でブログを記事ごとにベクトル表現にしてその分布をみました。
今回は試しにその記事を端的に表す(かもしれない)単語を求めてみましょう。

前回の記事を再利用し、記事のTFIDF値が高い単語の平均ベクトルに近い値の単語を各記事につき10単語ずつ示すコードを次に示します。

続きを読む "自分のブログをベクトルにして分布をみた(2)"

| | コメント (0)

2020.07.25

自分のブログをベクトルにして分布をみた(1)

前回、Dockerを使ったJupyter Labの環境を用意するで分析環境を用意しましたので、今回は実際に分析をしてみます。
素材に当ブログの記事を使います。著作権の問題がないですしね(笑)。

実行環境はmacOS Catalina + Docker for Macですが、WSLでJupyter Labを使う&ショートカット・アイコンから実行するでも同じようにいけるのではないかと思います。

続きを読む "自分のブログをベクトルにして分布をみた(1)"

| | コメント (0)

2020.07.23

Dockerを使ったJupyter Labの環境を用意する

記事分析のため、この度機械学習の環境を用意してみました。
開発環境としてJupyter Labを使うこととし、sklearn, gensim, wordcloud等を使ってみます。
Jupyter Labを導入し、nodejs及びextensionをインストールして有効にします。

続きを読む "Dockerを使ったJupyter Labの環境を用意する"

| | コメント (0)

2020.05.16

ScrapBook及びSave Page WEで保存したWebページをApache Solrで検索できるようにしてみた(その2)

Apache SolrにWebページのテキストデータを登録するところまでを
ScrapBook及びSave Page WEで保存したWebページをApache Solrで検索できるようにしてみた(その1)
に書きました。今回は、WebブラウザをクライアントにしてApache Solrからテキスト検索する簡単なサンプルコードを書いてみます。

Apache Solrが起動しているとき、標準的には、http://localhost:8983/solr/scrapbook/select?q=pythonのような形でテキスト検索を実行できます。するとJSON形式のレスポンスが返ってきます。これを一歩進めてWebブラウザをクライアントにした簡単なテキスト検索システムを作ります。

続きを読む "ScrapBook及びSave Page WEで保存したWebページをApache Solrで検索できるようにしてみた(その2)"

| | コメント (0)

2020.05.14

ScrapBook及びSave Page WEで保存したWebページをApache Solrで検索できるようにしてみた(その1)

以前、ローカルに保存したWebページのインデックス作成について書きました。

ScrapBookのリンク静的HTMLファイル作成スクリプト
Save Page WE及びScrapBookのインデックスリンク静的HTMLファイル作成スクリプト

ファイル数が増えてきたこともあり、今回はこれまで蓄積してきたWebページをApache Solrを使ってテキスト検索できるようにしてみましたので、その手順をメモ。
今回はその事前準備として、macOS Catalina起動時にApache 2及びApache Solrが自動起動するように設定します。さらに、蓄積されたWebページをインデキシングするまでを扱います。

続きを読む "ScrapBook及びSave Page WEで保存したWebページをApache Solrで検索できるようにしてみた(その1)"

| | コメント (0)

2020.04.11

WSLでJupyter Labを使う&ショートカット・アイコンから実行する

以前、アイコンをクリックすることでWSLのJupyter Notebookを使う際のメモ、WSLでJupyter notebookを使う&ショートカット・アイコンから実行するを書きました。
最近はJupyter Notebookの進化系、Jupyter Labがあり、この度試してみましたのでメモ。拡張機能も試してますよ。

今回の記事は、これらのサイトを参考にしております。ありがとうございます。
WSL環境にJupyterLabを構築してみる:Qiita
図解!Jupyter Labを徹底解説!(インストール・使い方・拡張機能):AI-interのPython3入門
JupyterLabのおすすめ拡張機能8選:Qiita

続きを読む "WSLでJupyter Labを使う&ショートカット・アイコンから実行する"

| | コメント (0)

2019.10.22

macOS Catalinaにアップデートしてみた結果

先日、macOS Catalinaにアップデートしました。その結果。

1.32bitアプリケーションの終了

これは事前にアナウンスもあり想定ずみ。私の場合、主にPicasaとQuick Silverが該当。
Picasaは2016年にはサポート終了していたと思いますがそのまま利用し続けてきました。今回、XnViewMPに移行しました。
Quick Silverは今回ようやくApple純正のSpotlightに移行しました。

2.今回iTunesから移行されたMusicがiTunes Serverを再生できない

これは盲点でした。MusicでiTunes Serverのライブラリ名は表示されるものの、選択してもライブラリを読み込めません。ネットをみると確かに不具合報告の記事がみられます。事前に気づいておれば…無念。これはiTunes Server(実体はforked-daapd)の対応を待つしかないのでしょうか…
NASベンダーは困ると思うので対応してくれると信じたいです…
とりあえず、Virtual Box on Macで動いているWindows 10のiTunesで対応することにします。

以上、ご報告。

続きを読む "macOS Catalinaにアップデートしてみた結果"

| | コメント (2)

2019.09.04

Shell ScriptとPOSIXコマンドで実践する簡単データ処理(その1)

以前、Shell Scriptとコマンドを使ったワンライナーで実践するデータ処理の記事を書きました。

ワンライナーで実践する簡単データ処理(その1 繰り返し項目集計編)
ワンライナーで実践する簡単データ処理(その2 疑似データベース編)

今回は、これらの記事に少し補足をしたいと思います。ここでは、繰返し項目処理と集計処理を取り扱います。
例に用いるデータは以下のとおり。タブ区切りテキストデータです。また、繰返し項目を” | ”で区切ります。
データ項目にスペースが入ることがある可能性を考慮して、ここでは項目区切り文字をタブに統一して取り扱います。 

list.txt


ID00001 f1ec 2013 IPC00 | IPC01 JP | US
ID00002 097d 2017 IPC02 US
ID00003 6a5b 2016 IPC03 | IPC04 | IPC05 JP | US | US
ID00004 6262 2015 IPC01 DE | EP
ID00005 8ab4 2014 IPC06 US
ID00006 3551 2016 IPC07 CN
ID00007 ca3e 2015 IPC03 | IPC08 | IPC09 CN | US
ID00008 af39 2014 IPC01 | IPC03 | IPC09 JP
ID00009 d168 2015 IPC10 JP | WO
ID00010 bc4f 2016 IPC11 | IPC01 CN | CN
ID00011 1efd 2016 IPC01 | IPC12 JP | WO
ID00012 2b22 2017 IPC13 | IPC14 | IPC15 | IPC16 DE | WO
ID00013 9776 2017 IPC04 | IPC15 US | JP | EP

4列目及び5列目が繰返し項目になっています。

続きを読む "Shell ScriptとPOSIXコマンドで実践する簡単データ処理(その1)"

| | コメント (0)

2019.05.12

WSLでJupyter notebookを使う&ショートカット・アイコンから実行する

(2020.04.14追記)
WSLでJupyter Labを使う&ショートカット・アイコンから実行するを書きましたので、併せてお読みください。
(2020.04.14追記ここまで)

MicrosoftからWSL 2が発表されましたね(アナウンスはここ )。

これまで、
WSL及びUbuntuのインストール手順を再整理しておく(2018年版)
など、WSLを試してきましたが、これまでのエミュレータに代えてLinuxカーネルをWindowsに組み込むなど、仕組みがずいぶん変わるとのことです。現行WSLは互換性について順次改善が進んできたものの問題が残っていたので、WSL 2に期待しています。

WSL 2はいずれ試したいと思っていますが、今回はWSLのJupyter notebookを簡単に起動する方法を試してみたのでその記録です。

試した環境は、
エディション Windows 10 Pro
バージョン  1903
OSビルド  18362.86
です。

また、今現在Microsoft StoreにあるUbuntuのバージョンはこちら。

$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description: Ubuntu 18.04.2 LTS
Release: 18.04
Codename: bionic

続きを読む "WSLでJupyter notebookを使う&ショートカット・アイコンから実行する"

| | コメント (0)

2019.05.11

Windows 10 ダイヤルアップに関わる(?)トラブル対応あれこれ

今回は、このGWに帰省した時に起きたPCのトラブルについての話題です。

たまに実家に帰ると実家のPCのWindows update状況を確認するのですが、前回帰省した年末以降updateが止まっていることに気づきました。インターネットには接続できるしWebアクセスもできているのですが、なぜかWindows Update時にネットワークに接続できてないとのメッセージが出ています。

今後のこともありますので、その時の復旧過程をメモ。

実家は田舎の山奥にあることもあり、未だADSLです。まあ、PCの使い方からみて速度的不満はないのですが。ADSLのモデムをPCに直につないでダイヤルアップしてISPに接続する方式です。

ADSLの新規申し込みは既に終了しているので、いずれは廃止されるのでしょうが、それはまた別の話。

続きを読む "Windows 10 ダイヤルアップに関わる(?)トラブル対応あれこれ"

| | コメント (0)

より以前の記事一覧