Word上のいじれない表からテキストを抜きたかった人

あ、テレワーク生活いったん終了しました(´・ω・`)
社内もろもろ落ち着いたらまた狙っていきたいです。

さておき、今回の話題。
組版の原稿データ、とくに論文となればほぼ例外なくWordドキュメントであるところですが、
そのWordドキュメントから図版・写真・表などを取り出す手順がいまいちあやしい。
でも図版・写真はまだいいんですわ。書き出したPDFから取れるので。
今回ウッとなったのは、表。しかもさわれない表。
右クリックすると画像としてしかさわれない。


なのに、PDFを書き出してみるとテキストが生きている。
これはPDFをイラスターで開いてみた状態。秘匿処理が面倒なので化けさせてあります(詭弁)。


だったら、PDFの細切れ文字じゃなく、まるっと、プリリンッと、取り出してみたい。

そこでひとつ、GoogleさんとTwitterさんに訊いてみました(失礼すぎるw)。

それで多少おぼついたので記録しておきます。
事情や仕組みを全くわきまえずに欲だけをいえば、Wordに配置される前の状態をいただきたいな,と思うわけですが、
どうも非可逆な存在のようです。
古くはQuarkに配置されたExcel発行物なんかでも同様にむせいでいたわけで、
諦めきれる。これは。


手法1:PDFを書き出してWordで開く

  1. WordからPDFを書き出す
  2. PDFをWordで開く

手順はこれだけ。Wordしか使わない手軽さがある。崩れることはある。


手法2:PDFを書き出して、PDFからExcel書類を書き出す

  1. WordからPDFを書き出す
  2. PDFをAcobatで開く(今回はAcrobatDCを使用した)
  3. ファイル > 書き出し形式 > スプレッドシート > Microsoft Excel ブック

手法1よりは若干ながら手数が多い。いちおう、当然だけど表として保存できる。
それはそれで崩れるときは崩れる。
この崩れ方が手法1のWordとそれぞれなので、余裕があれば都度どちらも試してみるとよいかも。


とりあえず上記の2つでなんとかなりそう。
反応いただいたお友達ありがとうございました。

皆様からのさらなる有益な情報お待ちしております。

InDesign:あっちこっちに同じ文字を何度も何度も何度も何度も打つ時にすごい便利なやつ

というわけで、新カテゴリ追加しました。
ここのところ、人のお世話になりっぱなしで。
困る→誰かが助けてくださる(スクリプト提供)→助かる
という流れが多く、ご本人のスペースで公開されてない場合もたまにあり。
今回はTenせんせーが新拠点で記事をアップされてるので、そちらへの誘導だけです。

さて今回直面した厄介作業は、
英文ゲラにカンマを入れる指示がどーっさりあるヤツ。
目と手を心がつらい。ラクしたい。ラクできたい。

これ、ExtendScriptでは普通に太刀打ちかなわんやつや、と思ってたんですが
TenせんせーがExtendScriptだけで解決してくださいました。見事すぎる!!


idleTaskで自動入力

CC Labo


注意点というか、
環境によっては公開されているコードが一部欠落してしまうようで、
ウチは職場でも自宅でもちょっと、そのままペーストしたらエラーが出たので、いちおうフォローというか。

5行目と14行目の2箇所、

'insertCharacterleep:250

となっていたら、

'insertCharacter', sleep:250

に直すと動きます。 これ、本気でものすごいはかどります。。Tenせんせー、恐ろしい子!
感謝感謝。


 

…その後紆余曲折を経て、おもち先生がエクステンションパネルをこしらえてくださいました。
おそろしいぐらい多機能になってます。スクリプトのとっかえひっかえもできちゃう。
でも上級向けかなー。ウチは今はこっち使わせてもらってます。ほんと助かります。

JsxTimerForCS6

ぜひみなさまも。ぜひ。